优化标题加强
This commit is contained in:
parent
a72de9ecc4
commit
afa51bb298
|
|
@ -1,4 +1,4 @@
|
||||||
# 服务器基本配置信息
|
# 服务器基本配置信息
|
||||||
# 除 log_verbose/HTTPX_DEFAULT_TIMEOUT 修改后即时生效
|
# 除 log_verbose/HTTPX_DEFAULT_TIMEOUT 修改后即时生效
|
||||||
# 其它配置项修改后都需要重启服务器才能生效,服务运行期间请勿修改
|
# 其它配置项修改后都需要重启服务器才能生效,服务运行期间请勿修改
|
||||||
|
|
||||||
|
|
|
||||||
|
|
@ -19,7 +19,7 @@ def get_fist_level_title(
|
||||||
ENDS_IN_PUNCT_RE = re.compile(ENDS_IN_PUNCT_PATTERN)
|
ENDS_IN_PUNCT_RE = re.compile(ENDS_IN_PUNCT_PATTERN)
|
||||||
if ENDS_IN_PUNCT_RE.search(first_line) is not None:
|
if ENDS_IN_PUNCT_RE.search(first_line) is not None:
|
||||||
return ""
|
return ""
|
||||||
FIRST_TITLE = r'((?<!.)\d+[^\S\n]+[^\s\.]+(?!\.|[a-zA-Z0-9])|((?<!.)第\s*\S+\s*章\s+\S+))'
|
FIRST_TITLE = r'((?<!.)\d+[^\S\n]+[^\s\.]+(?!\.|[a-zA-Z0-9])|((?<!.)第\s*\S+\s*章\s+\S+)[^\n]*)'
|
||||||
TITLE_PUNCT_RE = re.compile(FIRST_TITLE)
|
TITLE_PUNCT_RE = re.compile(FIRST_TITLE)
|
||||||
match = TITLE_PUNCT_RE.search(text) # 只查找第一个匹配项
|
match = TITLE_PUNCT_RE.search(text) # 只查找第一个匹配项
|
||||||
if match:
|
if match:
|
||||||
|
|
@ -42,7 +42,7 @@ def get_second_level_title(
|
||||||
#另一个分块
|
#另一个分块
|
||||||
#3.1.2 ***** 所以二级目录可能在第二行 和第一行
|
#3.1.2 ***** 所以二级目录可能在第二行 和第一行
|
||||||
#只查找最后匹配项
|
#只查找最后匹配项
|
||||||
Second_TITLE = r'((?<!.)[a-zA-Z0-9]+\s*\.\s*[a-zA-Z0-9]+[^\S\n]+[^\s\.]+(?!\.|[a-zA-Z0-9])|(?<!.)第\s*\S+\s*条\s+|(?<!.)第\s*\S+\s*条(:|:)|(?<!.)(一、|二、|三、|四、|五、|六、|七、|八、|九、|十、|十一、|十二、|十三、|十四、|十五、|十六、|十七、|十八、|十九、|二十、))'
|
Second_TITLE = r'((?<!.)[a-zA-Z0-9]+\s*\.\s*[a-zA-Z0-9]+[^\S\n]+[^\s\.]+(?!\.|[a-zA-Z0-9])|(?<!.)第\s*\S+\s*条\s+|(?<!.)第\s*\S+\s*条(:|:)|(?<!.)(一、|二、|三、|四、|五、|六、|七、|八、|九、|十、|十一、|十二、|十三、|十四、|十五、|十六、|十七、|十八、|十九、|二十、)[^\n]*)'
|
||||||
TITLE_PUNCT_RE = re.compile(Second_TITLE)
|
TITLE_PUNCT_RE = re.compile(Second_TITLE)
|
||||||
# match = TITLE_PUNCT_RE.search(text)
|
# match = TITLE_PUNCT_RE.search(text)
|
||||||
# if match:
|
# if match:
|
||||||
|
|
@ -248,16 +248,19 @@ def zh_first_title_enhance(docs: Document) -> Document:
|
||||||
|
|
||||||
if __name__ == "__main__":
|
if __name__ == "__main__":
|
||||||
str1 = """1 总 则\n1.1 本导则是编制和审查城市电力网(以下简称城网)规划的指导性文件,其 适用范围为国家电网公司所属的各网省公司、城市供电公司。\n1.2 城网是城市行政区划内为城市供电的各级电压电网的总称。城网是电力系 统的主要负荷中心,作为城市的重要基础设施之一,与城市的社会经济发展密切 相关。各城市应根据《中华人民共和国城市规划法》和《中华人民共和国电力法》 的相关规定,编制城网规划,并纳入相应的城市总体规划和各地区详细规划中。\n1.3 城网规划是城市总体规划的重要组成部分,应与城市的各项发展规划相互 配合、同步实施,做到与城市规划相协调,落实规划中所确定的线路走廊和地下 通道、变电站和配电室站址等供电设施用地。\n1.4 城网规划的目的是通过科学的规划,建设网络坚强、结构合理、安全可靠、 运行灵活、节能环保、经济高效的城市电网,不断提高城网供电能力和电能质量, 以满足城市经济增长和社会发展的需要。 ' metadata={'source': '/home/bns001/Langchain-Chatchat_0.2.9/knowledge_base/test/content/资产全寿命周期管理体系实施指南.docx'}"""
|
str1 = """1 总 则\n1.1 本导则是编制和审查城市电力网(以下简称城网)规划的指导性文件,其 适用范围为国家电网公司所属的各网省公司、城市供电公司。\n1.2 城网是城市行政区划内为城市供电的各级电压电网的总称。城网是电力系 统的主要负荷中心,作为城市的重要基础设施之一,与城市的社会经济发展密切 相关。各城市应根据《中华人民共和国城市规划法》和《中华人民共和国电力法》 的相关规定,编制城网规划,并纳入相应的城市总体规划和各地区详细规划中。\n1.3 城网规划是城市总体规划的重要组成部分,应与城市的各项发展规划相互 配合、同步实施,做到与城市规划相协调,落实规划中所确定的线路走廊和地下 通道、变电站和配电室站址等供电设施用地。\n1.4 城网规划的目的是通过科学的规划,建设网络坚强、结构合理、安全可靠、 运行灵活、节能环保、经济高效的城市电网,不断提高城网供电能力和电能质量, 以满足城市经济增长和社会发展的需要。 ' metadata={'source': '/home/bns001/Langchain-Chatchat_0.2.9/knowledge_base/test/content/资产全寿命周期管理体系实施指南.docx'}"""
|
||||||
str = """2 作业准备
|
str = """第一章 实施和保障
|
||||||
作业准备包括现场勘察 、风险管控 、“ 三措一案 ” (施工方。
|
\n四、实施和保障
|
||||||
2.1 现场勘察
|
(一)强化组织领导
|
||||||
2.1.1 需要现场勘察的作业项目 metadata={'source': '/home/bns001/Langchain-Chatchat_0.2.9/knowledge_base/test/content/资产全寿命周期管理体系实施指南.docx'}"""
|
各级单位要更加注重法治思维,把推进全员普法和守法摆上 重要工作日程,推动更多法治力量向引导和疏导端用力,组织落 实法治宣传教育五年规划。各单位党政主要负责人是法治建设第 一责任人,要认真履行普法领导责任。各级单位法治宣传教育工 作领导小组和工作机构要加强普法工作指导、督促检查、推动各 项任务落到实处。
|
||||||
|
(二)落实普法责任制
|
||||||
|
全面推广并落实“谁主管谁普法”普法责任制。修订普法责 任清单,细化普法内容、措施标准和责任,逐步形成清单管理、 跟踪提示、督促指导、评估反馈的管理模式。各业务部门按照“谁
|
||||||
|
; metadata={'source': '/home/bns001/Langchain-Chatchat_0.2.9/knowledge_base/test/content/资产全寿命周期管理体系实施指南.docx'}"""
|
||||||
result = is_second_level_content(str)
|
result = is_second_level_content(str)
|
||||||
print(result)
|
print(result)
|
||||||
title = get_fist_level_title(str)
|
title = get_fist_level_title(str)
|
||||||
print(title)
|
print(title)
|
||||||
title = get_second_level_title(str)
|
title = get_second_level_title(str)
|
||||||
print(title)
|
print(title)
|
||||||
title = get_third_level_title(str)
|
# title = get_third_level_title(str)
|
||||||
print(title)
|
# print(title)
|
||||||
|
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue