增加日志
This commit is contained in:
parent
4f579027c6
commit
8a4cc0527e
|
|
@ -104,28 +104,28 @@ class ChineseRecursiveTextSplitter(RecursiveCharacterTextSplitter):
|
|||
_good_splits = []
|
||||
_separator = "" if self._keep_separator else separator
|
||||
for s in splits:
|
||||
logger.info(f"***s:{s},len:{self._length_function(s)}")
|
||||
# logger.info(f"***s:{s},len:{self._length_function(s)}")
|
||||
if self._length_function(s) < self._chunk_size:
|
||||
_good_splits.append(s)
|
||||
logger.info(f"***_good_splits.append(s):{s}")
|
||||
# logger.info(f"***_good_splits.append(s):{s}")
|
||||
else:
|
||||
if _good_splits:
|
||||
logger.info(f"***_merge_splits(s):{s}")
|
||||
# logger.info(f"***_merge_splits(s):{s}")
|
||||
merged_text = self._merge_splits(_good_splits, _separator)
|
||||
logger.info(f"***after _merge_splits,merged_text:{merged_text}")
|
||||
# logger.info(f"***after _merge_splits,merged_text:{merged_text}")
|
||||
final_chunks.extend(merged_text)
|
||||
_good_splits = []
|
||||
if not new_separators:
|
||||
final_chunks.append(s)
|
||||
logger.info(f"***final_chunks.append(s)")
|
||||
# logger.info(f"***final_chunks.append(s)")
|
||||
else:
|
||||
logger.info(f"***下一级_split_text(s)")
|
||||
# logger.info(f"***下一级_split_text(s)")
|
||||
other_info = self._split_text(s, new_separators)
|
||||
final_chunks.extend(other_info)
|
||||
if _good_splits:
|
||||
logger.info(f"***22_merge_splits(s):{s}")
|
||||
# logger.info(f"***22_merge_splits(s):{s}")
|
||||
merged_text = self._merge_splits(_good_splits, _separator)
|
||||
logger.info(f"***22after _merge_splits,merged_text:{merged_text}")
|
||||
# logger.info(f"***22after _merge_splits,merged_text:{merged_text}")
|
||||
final_chunks.extend(merged_text)
|
||||
|
||||
final_chunks = [re.sub(r"\n{2,}", "\n", chunk.strip()) for chunk in final_chunks if chunk.strip()!=""]
|
||||
|
|
@ -150,11 +150,41 @@ class ChineseRecursiveTextSplitter(RecursiveCharacterTextSplitter):
|
|||
|
||||
if __name__ == "__main__":
|
||||
text_splitter = ChineseRecursiveTextSplitter(
|
||||
keep_separator=True, is_separator_regex=True, chunk_size=50, chunk_overlap=0
|
||||
keep_separator=True, is_separator_regex=True, chunk_size=500, chunk_overlap=0
|
||||
)
|
||||
ls = [
|
||||
"""中国对外贸易形势报告(75页)。前 10 个月,一般贸易进出口 19.5 万亿元,增长 25.1%, 比整体进出口增速高出 2.9 个百分点,占进出口总额的 61.7%,较去年同期提升 1.6 个百分点。其中,一般贸易出口 10.6 万亿元,增长 25.3%,占出口总额的 60.9%,提升 1.5 个百分点;进口8.9万亿元,增长24.9%,占进口总额的62.7%, 提升 1.8 个百分点。加工贸易进出口 6.8 万亿元,增长 11.8%, 占进出口总额的 21.5%,减少 2.0 个百分点。其中,出口增 长 10.4%,占出口总额的 24.3%,减少 2.6 个百分点;进口增 长 14.2%,占进口总额的 18.0%,减少 1.2 个百分点。此外, 以保税物流方式进出口 3.96 万亿元,增长 27.9%。其中,出 口 1.47 万亿元,增长 38.9%;进口 2.49 万亿元,增长 22.2%。前三季度,中国服务贸易继续保持快速增长态势。服务 进出口总额 37834.3 亿元,增长 11.6%;其中服务出口 17820.9 亿元,增长 27.3%;进口 20013.4 亿元,增长 0.5%,进口增 速实现了疫情以来的首次转正。服务出口增幅大于进口 26.8 个百分点,带动服务贸易逆差下降 62.9%至 2192.5 亿元。服 务贸易结构持续优化,知识密集型服务进出口 16917.7 亿元, 增长 13.3%,占服务进出口总额的比重达到 44.7%,提升 0.7 个百分点。 二、中国对外贸易发展环境分析和展望 全球疫情起伏反复,经济复苏分化加剧,大宗商品价格 上涨、能源紧缺、运力紧张及发达经济体政策调整外溢等风 险交织叠加。同时也要看到,我国经济长期向好的趋势没有 改变,外贸企业韧性和活力不断增强,新业态新模式加快发 展,创新转型步伐提速。产业链供应链面临挑战。美欧等加快出台制造业回迁计 划,加速产业链供应链本土布局,跨国公司调整产业链供应 链,全球双链面临新一轮重构,区域化、近岸化、本土化、 短链化趋势凸显。疫苗供应不足,制造业“缺芯”、物流受限、 运价高企,全球产业链供应链面临压力。 全球通胀持续高位运行。能源价格上涨加大主要经济体 的通胀压力,增加全球经济复苏的不确定性。世界银行今年 10 月发布《大宗商品市场展望》指出,能源价格在 2021 年 大涨逾 80%,并且仍将在 2022 年小幅上涨。IMF 指出,全 球通胀上行风险加剧,通胀前景存在巨大不确定性。""",
|
||||
]
|
||||
ls = ["""规章制度编号:国网(基建/3)115-2021
|
||||
国家电网有限公司输变电工程初步设计 审批管理办法
|
||||
第一章 总 则
|
||||
第一条 为加强公司输变电工程初步设计审批管理工作 , 规范工作流程,提高质量和效率,加强工程造价和设计质量控 制,依据《 国家电网公司基建技经管理规定》和有关规章制度, 特制定本办法。
|
||||
第二条 本办法规定了输变电工程初步设计审批阶段各有 关单位和部门的工作职责、工作流程、计划管理、评审管理、 批复管理、评价考核、信息反馈等全过程管理内容。
|
||||
第三条 本办法适用于公司系统投资 35 千伏(含新建变电 站同期配套 10 千伏送出线路工程)至 750 千伏交流输变电工程 初步设计的审批管理。EPC 等包含设计的总承包模式,工程初步 设计审批管理按照有关法律法规要求和合同约
|
||||
定执行。
|
||||
第四条 初步设计审批的总体要求是依据项目核准、可行 性研究方案和投资估算,开展输变电工程建设方案的技术经济 分析和评价,确定安全可靠、技术先进、造价合理、控制精准 的设计方案。
|
||||
第五条 初步设计审批应严格遵循“严肃性、精准性、科 学性、规范性”原则。在初步设计评审各环节,统一发展、财
|
||||
务、安监、设备、科技、调控等各专业部门意见,严格评审标 准 ,保证评审深度,确保评审质量。
|
||||
第二章 职责分工
|
||||
第六条 国网基建部管理职责:
|
||||
( 一)负责公司系统输变电工程初步设计审批工作归口管 理,建立初步设计评审和批复管理体系,制定管理制度;
|
||||
(二)负责公司系统 750 千伏、500 千伏、330 千伏和 220 千伏规模以上工程及 110(66)千伏地下变电站工程初步设计评 审计划管理;
|
||||
( 三)负责涉及主网架结构调整的 750 千伏、500 千伏工程 及 330 千伏、220 千伏、110(66)千伏地下变电站工程初步设 计批复;
|
||||
( 四)负责初步设计评审工作的监督、考核和质量评价工 作;
|
||||
(五)负责推动初步设计评审工作标准化、信息化管理。
|
||||
第七条 省公司(包括省、 自治 区、直辖市电力公司, 以
|
||||
下同)基建管理部门管理职责:
|
||||
( 一)贯彻落实公司初步设计审批工作有关要求,负责所 辖业务范围内输变电工程初步设计审批工作管理;
|
||||
(二)负责 220 千伏规模以下及 110(66)千伏非地下变电 站、35 千伏工程初步设计评审计划管理;
|
||||
( 三)负责 750 千伏改扩建、500 千伏改扩建及 330 千伏、
|
||||
220 千伏、110(66)千伏非地下变电站工程初步设计批复。可 根据实际情况自行确定将部分工程批复权限下放至地市公司;
|
||||
( 四)负责依法依规对评审单位进行监督与评价;
|
||||
(五)配合公司开展输变电工程初步设计审批。
|
||||
第八条 地市公司组织或配合所辖范围内输变电工程初步 设计评审和批复工作。
|
||||
第九条 公司各级单位发展、财务、安监、设备、科技、 调控等部门职责:
|
||||
( 一)发展部门负责审核初步设计执行可研情况,重点对 接入系统方案、变电站主接线型式及总平面布置、建设规模、 线路路径和站址等情况提出专业意见;
|
||||
(二)设备部门负责对初步设计执行技术标准、主要电气 设备材料选择、安全可靠性保证、反事故措施等开展技术监督 工作,提出专业意见;
|
||||
( 三)调控部门负责对系统接线方式、停电过渡方案、继 电保护、通信、监控和 自动化等提出专业意见;
|
||||
( 四)财务、安监、科技等部门负责对工程提出专业意见。 第十条 建设管理单位参与负责建设管理的输变电工程初
|
||||
步设计评审工作。
|
||||
第十一条 评审单位负责对工程初步设计文件的主要技术 方案和概算投资开展评审工作。"""]
|
||||
# text = """"""
|
||||
for inum, text in enumerate(ls):
|
||||
print(inum)
|
||||
|
|
|
|||
|
|
@ -405,10 +405,10 @@ class KnowledgeFile:
|
|||
docs = text_splitter.split_text(docs[0].page_content)
|
||||
else:
|
||||
# print(f"**********************docs2texts: text_splitter.split_documents(docs)")
|
||||
outputfile = file_name_without_extension + "_source.txt"
|
||||
with open(outputfile, 'w') as file:
|
||||
for doc in docs:
|
||||
file.write(doc.page_content)
|
||||
# outputfile = file_name_without_extension + "_source.txt"
|
||||
# with open(outputfile, 'w') as file:
|
||||
# for doc in docs:
|
||||
# file.write(doc.page_content)
|
||||
docs = text_splitter.split_documents(docs)
|
||||
|
||||
if not docs:
|
||||
|
|
@ -422,15 +422,15 @@ class KnowledgeFile:
|
|||
docs = zh_first_title_enhance(docs)
|
||||
docs = customize_zh_title_enhance(docs)
|
||||
|
||||
i = 1
|
||||
outputfile = file_name_without_extension + "_split.txt"
|
||||
# 打开文件以写入模式
|
||||
with open(outputfile, 'w') as file:
|
||||
for doc in docs:
|
||||
#print(f"**********切分段{i}:{doc}")
|
||||
file.write(f"\n**********切分段{i}")
|
||||
file.write(doc.page_content)
|
||||
i = i+1
|
||||
# i = 1
|
||||
# outputfile = file_name_without_extension + "_split.txt"
|
||||
# # 打开文件以写入模式
|
||||
# with open(outputfile, 'w') as file:
|
||||
# for doc in docs:
|
||||
# #print(f"**********切分段{i}:{doc}")
|
||||
# file.write(f"\n**********切分段{i}")
|
||||
# file.write(doc.page_content)
|
||||
# i = i+1
|
||||
|
||||
self.splited_docs = docs
|
||||
return self.splited_docs
|
||||
|
|
|
|||
Loading…
Reference in New Issue