增加日志

This commit is contained in:
weiweiw 2025-01-14 15:19:52 +08:00
parent 4f579027c6
commit 8a4cc0527e
2 changed files with 55 additions and 25 deletions

View File

@ -104,28 +104,28 @@ class ChineseRecursiveTextSplitter(RecursiveCharacterTextSplitter):
_good_splits = []
_separator = "" if self._keep_separator else separator
for s in splits:
logger.info(f"***s:{s},len:{self._length_function(s)}")
# logger.info(f"***s:{s},len:{self._length_function(s)}")
if self._length_function(s) < self._chunk_size:
_good_splits.append(s)
logger.info(f"***_good_splits.append(s):{s}")
# logger.info(f"***_good_splits.append(s):{s}")
else:
if _good_splits:
logger.info(f"***_merge_splits(s):{s}")
# logger.info(f"***_merge_splits(s):{s}")
merged_text = self._merge_splits(_good_splits, _separator)
logger.info(f"***after _merge_splits,merged_text:{merged_text}")
# logger.info(f"***after _merge_splits,merged_text:{merged_text}")
final_chunks.extend(merged_text)
_good_splits = []
if not new_separators:
final_chunks.append(s)
logger.info(f"***final_chunks.append(s)")
# logger.info(f"***final_chunks.append(s)")
else:
logger.info(f"***下一级_split_text(s)")
# logger.info(f"***下一级_split_text(s)")
other_info = self._split_text(s, new_separators)
final_chunks.extend(other_info)
if _good_splits:
logger.info(f"***22_merge_splits(s):{s}")
# logger.info(f"***22_merge_splits(s):{s}")
merged_text = self._merge_splits(_good_splits, _separator)
logger.info(f"***22after _merge_splits,merged_text:{merged_text}")
# logger.info(f"***22after _merge_splits,merged_text:{merged_text}")
final_chunks.extend(merged_text)
final_chunks = [re.sub(r"\n{2,}", "\n", chunk.strip()) for chunk in final_chunks if chunk.strip()!=""]
@ -150,11 +150,41 @@ class ChineseRecursiveTextSplitter(RecursiveCharacterTextSplitter):
if __name__ == "__main__":
text_splitter = ChineseRecursiveTextSplitter(
keep_separator=True, is_separator_regex=True, chunk_size=50, chunk_overlap=0
keep_separator=True, is_separator_regex=True, chunk_size=500, chunk_overlap=0
)
ls = [
"""中国对外贸易形势报告75页。前 10 个月,一般贸易进出口 19.5 万亿元,增长 25.1% 比整体进出口增速高出 2.9 个百分点,占进出口总额的 61.7%,较去年同期提升 1.6 个百分点。其中,一般贸易出口 10.6 万亿元,增长 25.3%,占出口总额的 60.9%,提升 1.5 个百分点进口8.9万亿元增长24.9%占进口总额的62.7% 提升 1.8 个百分点。加工贸易进出口 6.8 万亿元,增长 11.8% 占进出口总额的 21.5%,减少 2.0 个百分点。其中,出口增 长 10.4%,占出口总额的 24.3%,减少 2.6 个百分点;进口增 长 14.2%,占进口总额的 18.0%,减少 1.2 个百分点。此外, 以保税物流方式进出口 3.96 万亿元,增长 27.9%。其中,出 口 1.47 万亿元,增长 38.9%;进口 2.49 万亿元,增长 22.2%。前三季度,中国服务贸易继续保持快速增长态势。服务 进出口总额 37834.3 亿元,增长 11.6%;其中服务出口 17820.9 亿元,增长 27.3%;进口 20013.4 亿元,增长 0.5%,进口增 速实现了疫情以来的首次转正。服务出口增幅大于进口 26.8 个百分点,带动服务贸易逆差下降 62.9%至 2192.5 亿元。服 务贸易结构持续优化,知识密集型服务进出口 16917.7 亿元, 增长 13.3%,占服务进出口总额的比重达到 44.7%,提升 0.7 个百分点。 二、中国对外贸易发展环境分析和展望 全球疫情起伏反复,经济复苏分化加剧,大宗商品价格 上涨、能源紧缺、运力紧张及发达经济体政策调整外溢等风 险交织叠加。同时也要看到,我国经济长期向好的趋势没有 改变,外贸企业韧性和活力不断增强,新业态新模式加快发 展,创新转型步伐提速。产业链供应链面临挑战。美欧等加快出台制造业回迁计 划,加速产业链供应链本土布局,跨国公司调整产业链供应 链,全球双链面临新一轮重构,区域化、近岸化、本土化、 短链化趋势凸显。疫苗供应不足,制造业“缺芯”、物流受限、 运价高企,全球产业链供应链面临压力。 全球通胀持续高位运行。能源价格上涨加大主要经济体 的通胀压力,增加全球经济复苏的不确定性。世界银行今年 10 月发布《大宗商品市场展望》指出,能源价格在 2021 年 大涨逾 80%,并且仍将在 2022 年小幅上涨。IMF 指出,全 球通胀上行风险加剧,通胀前景存在巨大不确定性。""",
]
ls = ["""规章制度编号:国网(基建/3115-2021
国家电网有限公司输变电工程初步设计 审批管理办法
第一章
第一条 为加强公司输变电工程初步设计审批管理工作 规范工作流程提高质量和效率加强工程造价和设计质量控 依据 国家电网公司基建技经管理规定和有关规章制度 特制定本办法
第二条 本办法规定了输变电工程初步设计审批阶段各有 关单位和部门的工作职责工作流程计划管理评审管理 批复管理评价考核信息反馈等全过程管理内容
第三条 本办法适用于公司系统投资 35 千伏含新建变电 站同期配套 10 千伏送出线路工程 750 千伏交流输变电工程 初步设计的审批管理EPC 等包含设计的总承包模式工程初步 设计审批管理按照有关法律法规要求和合同约
定执行
第四条 初步设计审批的总体要求是依据项目核准可行 性研究方案和投资估算开展输变电工程建设方案的技术经济 分析和评价确定安全可靠技术先进造价合理控制精准 的设计方案
第五条 初步设计审批应严格遵循严肃性精准性 学性规范性原则在初步设计评审各环节统一发展
安监设备科技调控等各专业部门意见严格评审标 保证评审深度确保评审质量
第二章 职责分工
第六条 国网基建部管理职责
负责公司系统输变电工程初步设计审批工作归口管 建立初步设计评审和批复管理体系制定管理制度
负责公司系统 750 千伏500 千伏330 千伏和 220 千伏规模以上工程及 11066千伏地下变电站工程初步设计评 审计划管理
负责涉及主网架结构调整的 750 千伏500 千伏工程 330 千伏220 千伏11066千伏地下变电站工程初步设 计批复
负责初步设计评审工作的监督考核和质量评价工
负责推动初步设计评审工作标准化信息化管理
第七条 省公司包括省 自治 直辖市电力公司
下同基建管理部门管理职责
贯彻落实公司初步设计审批工作有关要求负责所 辖业务范围内输变电工程初步设计审批工作管理
负责 220 千伏规模以下及 11066千伏非地下变电 35 千伏工程初步设计评审计划管理
负责 750 千伏改扩建500 千伏改扩建及 330 千伏
220 千伏11066千伏非地下变电站工程初步设计批复 根据实际情况自行确定将部分工程批复权限下放至地市公司
负责依法依规对评审单位进行监督与评价
配合公司开展输变电工程初步设计审批
第八条 地市公司组织或配合所辖范围内输变电工程初步 设计评审和批复工作
第九条 公司各级单位发展财务安监设备科技 调控等部门职责
发展部门负责审核初步设计执行可研情况重点对 接入系统方案变电站主接线型式及总平面布置建设规模 线路路径和站址等情况提出专业意见
设备部门负责对初步设计执行技术标准主要电气 设备材料选择安全可靠性保证反事故措施等开展技术监督 工作提出专业意见
调控部门负责对系统接线方式停电过渡方案 电保护通信监控和 自动化等提出专业意见
财务安监科技等部门负责对工程提出专业意见 第十条 建设管理单位参与负责建设管理的输变电工程初
步设计评审工作
第十一条 评审单位负责对工程初步设计文件的主要技术 方案和概算投资开展评审工作"""]
# text = """"""
for inum, text in enumerate(ls):
print(inum)

View File

@ -405,10 +405,10 @@ class KnowledgeFile:
docs = text_splitter.split_text(docs[0].page_content)
else:
# print(f"**********************docs2texts: text_splitter.split_documents(docs)")
outputfile = file_name_without_extension + "_source.txt"
with open(outputfile, 'w') as file:
for doc in docs:
file.write(doc.page_content)
# outputfile = file_name_without_extension + "_source.txt"
# with open(outputfile, 'w') as file:
# for doc in docs:
# file.write(doc.page_content)
docs = text_splitter.split_documents(docs)
if not docs:
@ -422,15 +422,15 @@ class KnowledgeFile:
docs = zh_first_title_enhance(docs)
docs = customize_zh_title_enhance(docs)
i = 1
outputfile = file_name_without_extension + "_split.txt"
# 打开文件以写入模式
with open(outputfile, 'w') as file:
for doc in docs:
#print(f"**********切分段{i}{doc}")
file.write(f"\n**********切分段{i}")
file.write(doc.page_content)
i = i+1
# i = 1
# outputfile = file_name_without_extension + "_split.txt"
# # 打开文件以写入模式
# with open(outputfile, 'w') as file:
# for doc in docs:
# #print(f"**********切分段{i}{doc}")
# file.write(f"\n**********切分段{i}")
# file.write(doc.page_content)
# i = i+1
self.splited_docs = docs
return self.splited_docs