merge single line to the next content

2023-12-13 18:06:49 +08:00 · 2023-12-13 18:06:49 +08:00 · bf21b8f116
parent 8c367eb460
commit bf21b8f116
2 changed files with 25 additions and 2 deletions
--- a/server/knowledge_base/utils.py
+++ b/server/knowledge_base/utils.py
@ -25,7 +25,7 @@ from server.utils import run_in_thread_pool, embedding_device, get_model_worker_
 import io
 from typing import List, Union, Callable, Dict, Optional, Tuple, Generator
 import chardet
-
+import re
 def validate_kb_name(knowledge_base_id: str) -> bool:
    # 检查是否包含预期外的字符或路径攻击关键字
@ -314,6 +314,10 @@ class KnowledgeFile:
                print("文件不存在")
        docs = docs or self.file2docs(refresh=refresh)
        #after loading, remove the redundant line break
        for doc in docs:
            if doc.page_content.strip()!="":
                doc.page_content = re.sub(r"\n{2,}", "\n", doc.page_content.strip()) 
        file_name_without_extension, file_extension = os.path.splitext(self.filepath)
        print(f"filepath:{self.filepath},文件名拆分后：{file_name_without_extension},{file_extension}")
        if not docs:
--- a/text_splitter/chinese_recursive_text_splitter.py
+++ b/text_splitter/chinese_recursive_text_splitter.py
@ -97,7 +97,26 @@ class ChineseRecursiveTextSplitter(RecursiveCharacterTextSplitter):
        if _good_splits:
            merged_text = self._merge_splits(_good_splits, _separator)
            final_chunks.extend(merged_text)
-        return [re.sub(r"\n{2,}", "\n", chunk.strip()) for chunk in final_chunks if chunk.strip()!=""]
+        
        final_chunks = [re.sub(r"\n{2,}", "\n", chunk.strip()) for chunk in final_chunks if chunk.strip()!=""]
        #将单行和两行的和下面的分块合并
        return_chunks = []
        temp_sencond = ""
        for chunk in final_chunks:
            if temp_sencond =="":
                if len(chunk.splitlines()) <= 1:
                    temp_sencond = chunk
                else:
                    return_chunks.append(chunk)
            else:
                return_chunks.append(temp_sencond + chunk)
                temp_sencond = "" 
        if temp_sencond !="":
            return_chunks.append(temp_sencond)
        return return_chunks
        #return [re.sub(r"\n{2,}", "\n", chunk.strip()) for chunk in final_chunks if chunk.strip()!=""]
 if __name__ == "__main__":