Langchain-Chatchat/server/knowledge_base/utils.py

import os
from configs import (
    KB_ROOT_PATH,
    CHUNK_SIZE,
    OVERLAP_SIZE,
    ZH_TITLE_ENHANCE,
    logger,
    log_verbose,
    text_splitter_dict,
    LLM_MODELS,
    TEXT_SPLITTER_NAME,
)
import importlib
from text_splitter import zh_title_enhance as func_zh_title_enhance
import langchain.document_loaders
from langchain.docstore.document import Document
from langchain.text_splitter import TextSplitter
from pathlib import Path
from server.utils import run_in_thread_pool, get_model_worker_config
import json
from typing import List, Union,Dict, Tuple, Generator
import chardet


def validate_kb_name(knowledge_base_id: str) -> bool:
    # 检查是否包含预期外的字符或路径攻击关键字
    if "../" in knowledge_base_id:
        return False
    return True


def get_kb_path(knowledge_base_name: str):
    return os.path.join(KB_ROOT_PATH, knowledge_base_name)


def get_doc_path(knowledge_base_name: str):
    return os.path.join(get_kb_path(knowledge_base_name), "content")


def get_vs_path(knowledge_base_name: str, vector_name: str):
    return os.path.join(get_kb_path(knowledge_base_name), "vector_store", vector_name)


def get_file_path(knowledge_base_name: str, doc_name: str):
    return os.path.join(get_doc_path(knowledge_base_name), doc_name)


def list_kbs_from_folder():
    return [f for f in os.listdir(KB_ROOT_PATH)
            if os.path.isdir(os.path.join(KB_ROOT_PATH, f))]


def list_files_from_folder(kb_name: str):
    doc_path = get_doc_path(kb_name)
    result = []

    def is_skiped_path(path: str):
        tail = os.path.basename(path).lower()
        for x in ["temp", "tmp", ".", "~$"]:
            if tail.startswith(x):
                return True
        return False

    def process_entry(entry):
        if is_skiped_path(entry.path):
            return

        if entry.is_symlink():
            target_path = os.path.realpath(entry.path)
            with os.scandir(target_path) as target_it:
                for target_entry in target_it:
                    process_entry(target_entry)
        elif entry.is_file():
            result.append(entry.path)
        elif entry.is_dir():
            with os.scandir(entry.path) as it:
                for sub_entry in it:
                    process_entry(sub_entry)

    with os.scandir(doc_path) as it:
        for entry in it:
            process_entry(entry)

    return result


LOADER_DICT = {"UnstructuredHTMLLoader": ['.html'],
               "UnstructuredMarkdownLoader": ['.md'],
               "JSONLoader": [".json"],
               "JSONLinesLoader": [".jsonl"],
               "CSVLoader": [".csv"],
               # "FilteredCSVLoader": [".csv"], # 需要自己指定，目前还没有支持
               "RapidOCRPDFLoader": [".pdf"],
               "RapidOCRLoader": ['.png', '.jpg', '.jpeg', '.bmp'],
               "UnstructuredEmailLoader": ['.eml', '.msg'],
               "UnstructuredEPubLoader": ['.epub'],
               "UnstructuredExcelLoader": ['.xlsx', '.xlsd'],
               "NotebookLoader": ['.ipynb'],
               "UnstructuredODTLoader": ['.odt'],
               "PythonLoader": ['.py'],
               "UnstructuredRSTLoader": ['.rst'],
               "UnstructuredRTFLoader": ['.rtf'],
               "SRTLoader": ['.srt'],
               "TomlLoader": ['.toml'],
               "UnstructuredTSVLoader": ['.tsv'],
               "UnstructuredWordDocumentLoader": ['.docx', 'doc'],
               "UnstructuredXMLLoader": ['.xml'],
               "UnstructuredPowerPointLoader": ['.ppt', '.pptx'],
               "UnstructuredFileLoader": ['.txt'],
               }
SUPPORTED_EXTS = [ext for sublist in LOADER_DICT.values() for ext in sublist]


# patch json.dumps to disable ensure_ascii
def _new_json_dumps(obj, **kwargs):
    kwargs["ensure_ascii"] = False
    return _origin_json_dumps(obj, **kwargs)

if json.dumps is not _new_json_dumps:
    _origin_json_dumps = json.dumps
    json.dumps = _new_json_dumps


class JSONLinesLoader(langchain.document_loaders.JSONLoader):
    '''
    行式 Json 加载器，要求文件扩展名为 .jsonl
    '''
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self._json_lines = True


langchain.document_loaders.JSONLinesLoader = JSONLinesLoader


def get_LoaderClass(file_extension):
    for LoaderClass, extensions in LOADER_DICT.items():
        if file_extension in extensions:
            return LoaderClass


# 把一些向量化共用逻辑从KnowledgeFile抽取出来，等langchain支持内存文件的时候，可以将非磁盘文件向量化
def get_loader(loader_name: str, file_path: str, loader_kwargs: Dict = None):
    '''
    根据loader_name和文件路径或内容返回文档加载器。
    '''
    loader_kwargs = loader_kwargs or {}
    try:
        if loader_name in ["RapidOCRPDFLoader", "RapidOCRLoader","FilteredCSVLoader"]:
            document_loaders_module = importlib.import_module('document_loaders')
        else:
            document_loaders_module = importlib.import_module('langchain.document_loaders')
        DocumentLoader = getattr(document_loaders_module, loader_name)
    except Exception as e:
        msg = f"为文件{file_path}查找加载器{loader_name}时出错：{e}"
        logger.error(f'{e.__class__.__name__}: {msg}',
                     exc_info=e if log_verbose else None)
        document_loaders_module = importlib.import_module('langchain.document_loaders')
        DocumentLoader = getattr(document_loaders_module, "UnstructuredFileLoader")

    if loader_name == "UnstructuredFileLoader":
        loader_kwargs.setdefault("autodetect_encoding", True)
    elif loader_name == "CSVLoader":
        if not loader_kwargs.get("encoding"):
            # 如果未指定 encoding，自动识别文件编码类型，避免langchain loader 加载文件报编码错误
            with open(file_path, 'rb') as struct_file:
                encode_detect = chardet.detect(struct_file.read())
            if encode_detect is None:
                encode_detect = {"encoding": "utf-8"}
            loader_kwargs["encoding"] = encode_detect["encoding"]
        ## TODO：支持更多的自定义CSV读取逻辑

    elif loader_name == "JSONLoader":
        loader_kwargs.setdefault("jq_schema", ".")
        loader_kwargs.setdefault("text_content", False)
    elif loader_name == "JSONLinesLoader":
        loader_kwargs.setdefault("jq_schema", ".")
        loader_kwargs.setdefault("text_content", False)

    loader = DocumentLoader(file_path, **loader_kwargs)
    return loader


def make_text_splitter(
        splitter_name: str = TEXT_SPLITTER_NAME,
        chunk_size: int = CHUNK_SIZE,
        chunk_overlap: int = OVERLAP_SIZE,
        llm_model: str = LLM_MODELS[0],
):
    """
    根据参数获取特定的分词器
    """
    splitter_name = splitter_name or "SpacyTextSplitter"
    try:
        if splitter_name == "MarkdownHeaderTextSplitter":  # MarkdownHeaderTextSplitter特殊判定
            headers_to_split_on = text_splitter_dict[splitter_name]['headers_to_split_on']
            text_splitter = langchain.text_splitter.MarkdownHeaderTextSplitter(
                headers_to_split_on=headers_to_split_on)
        else:

            try:  ## 优先使用用户自定义的text_splitter
                text_splitter_module = importlib.import_module('text_splitter')
                TextSplitter = getattr(text_splitter_module, splitter_name)
            except:  ## 否则使用langchain的text_splitter
                text_splitter_module = importlib.import_module('langchain.text_splitter')
                TextSplitter = getattr(text_splitter_module, splitter_name)

            if text_splitter_dict[splitter_name]["source"] == "tiktoken":  ## 从tiktoken加载
                try:
                    text_splitter = TextSplitter.from_tiktoken_encoder(
                        encoding_name=text_splitter_dict[splitter_name]["tokenizer_name_or_path"],
                        pipeline="zh_core_web_sm",
                        chunk_size=chunk_size,
                        chunk_overlap=chunk_overlap
                    )
                except:
                    text_splitter = TextSplitter.from_tiktoken_encoder(
                        encoding_name=text_splitter_dict[splitter_name]["tokenizer_name_or_path"],
                        chunk_size=chunk_size,
                        chunk_overlap=chunk_overlap
                    )
            elif text_splitter_dict[splitter_name]["source"] == "huggingface":  ## 从huggingface加载
                if text_splitter_dict[splitter_name]["tokenizer_name_or_path"] == "":
                    config = get_model_worker_config(llm_model)
                    text_splitter_dict[splitter_name]["tokenizer_name_or_path"] = \
                        config.get("model_path")

                if text_splitter_dict[splitter_name]["tokenizer_name_or_path"] == "gpt2":
                    from transformers import GPT2TokenizerFast
                    from langchain.text_splitter import CharacterTextSplitter
                    tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")
                else:  ## 字符长度加载
                    from transformers import AutoTokenizer
                    tokenizer = AutoTokenizer.from_pretrained(
                        text_splitter_dict[splitter_name]["tokenizer_name_or_path"],
                        trust_remote_code=True)
                text_splitter = TextSplitter.from_huggingface_tokenizer(
                    tokenizer=tokenizer,
                    chunk_size=chunk_size,
                    chunk_overlap=chunk_overlap
                )
            else:
                try:
                    text_splitter = TextSplitter(
                        pipeline="zh_core_web_sm",
                        chunk_size=chunk_size,
                        chunk_overlap=chunk_overlap
                    )
                except:
                    text_splitter = TextSplitter(
                        chunk_size=chunk_size,
                        chunk_overlap=chunk_overlap
                    )
    except Exception as e:
        print(e)
        text_splitter_module = importlib.import_module('langchain.text_splitter')
        TextSplitter = getattr(text_splitter_module, "RecursiveCharacterTextSplitter")
        text_splitter = TextSplitter(chunk_size=250, chunk_overlap=50)
    return text_splitter


class KnowledgeFile:
    def __init__(
            self,
            filename: str,
            knowledge_base_name: str,
            loader_kwargs: Dict = {},
    ):
        '''
        对应知识库目录中的文件，必须是磁盘上存在的才能进行向量化等操作。
        '''
        self.kb_name = knowledge_base_name
        self.filename = filename
        self.ext = os.path.splitext(filename)[-1].lower()
        if self.ext not in SUPPORTED_EXTS:
            raise ValueError(f"暂未支持的文件格式 {self.filename}")
        self.loader_kwargs = loader_kwargs
        self.filepath = get_file_path(knowledge_base_name, filename)
        self.docs = None
        self.splited_docs = None
        self.document_loader_name = get_LoaderClass(self.ext)
        self.text_splitter_name = TEXT_SPLITTER_NAME

    def file2docs(self, refresh: bool = False):
        if self.docs is None or refresh:
            logger.info(f"{self.document_loader_name} used for {self.filepath}")
            loader = get_loader(loader_name=self.document_loader_name,
                                file_path=self.filepath,
                                loader_kwargs=self.loader_kwargs)
            self.docs = loader.load()
        return self.docs

    def docs2texts(
            self,
            docs: List[Document] = None,
            zh_title_enhance: bool = ZH_TITLE_ENHANCE,
            refresh: bool = False,
            chunk_size: int = CHUNK_SIZE,
            chunk_overlap: int = OVERLAP_SIZE,
            text_splitter: TextSplitter = None,
    ):
        docs = docs or self.file2docs(refresh=refresh)
        if not docs:
            return []
        if self.ext not in [".csv"]:
            if text_splitter is None:
                text_splitter = make_text_splitter(splitter_name=self.text_splitter_name, chunk_size=chunk_size,
                                                   chunk_overlap=chunk_overlap)
            if self.text_splitter_name == "MarkdownHeaderTextSplitter":
                docs = text_splitter.split_text(docs[0].page_content)
            else:
                docs = text_splitter.split_documents(docs)

        print(f"文档切分示例：{docs[0]}")
        if zh_title_enhance:
            docs = func_zh_title_enhance(docs)
        self.splited_docs = docs
        return self.splited_docs

    def file2text(
            self,
            zh_title_enhance: bool = ZH_TITLE_ENHANCE,
            refresh: bool = False,
            chunk_size: int = CHUNK_SIZE,
            chunk_overlap: int = OVERLAP_SIZE,
            text_splitter: TextSplitter = None,
    ):
        if self.splited_docs is None or refresh:
            docs = self.file2docs()
            self.splited_docs = self.docs2texts(docs=docs,
                                                zh_title_enhance=zh_title_enhance,
                                                refresh=refresh,
                                                chunk_size=chunk_size,
                                                chunk_overlap=chunk_overlap,
                                                text_splitter=text_splitter)
        return self.splited_docs

    def file_exist(self):
        return os.path.isfile(self.filepath)

    def get_mtime(self):
        return os.path.getmtime(self.filepath)

    def get_size(self):
        return os.path.getsize(self.filepath)


def files2docs_in_thread(
        files: List[Union[KnowledgeFile, Tuple[str, str], Dict]],
        chunk_size: int = CHUNK_SIZE,
        chunk_overlap: int = OVERLAP_SIZE,
        zh_title_enhance: bool = ZH_TITLE_ENHANCE,
) -> Generator:
    '''
    利用多线程批量将磁盘文件转化成langchain Document.
    如果传入参数是Tuple，形式为(filename, kb_name)
    生成器返回值为 status, (kb_name, file_name, docs | error)
    '''

    def file2docs(*, file: KnowledgeFile, **kwargs) -> Tuple[bool, Tuple[str, str, List[Document]]]:
        try:
            return True, (file.kb_name, file.filename, file.file2text(**kwargs))
        except Exception as e:
            msg = f"从文件 {file.kb_name}/{file.filename} 加载文档时出错：{e}"
            logger.error(f'{e.__class__.__name__}: {msg}',
                         exc_info=e if log_verbose else None)
            return False, (file.kb_name, file.filename, msg)

    kwargs_list = []
    for i, file in enumerate(files):
        kwargs = {}
        try:
            if isinstance(file, tuple) and len(file) >= 2:
                filename = file[0]
                kb_name = file[1]
                file = KnowledgeFile(filename=filename, knowledge_base_name=kb_name)
            elif isinstance(file, dict):
                filename = file.pop("filename")
                kb_name = file.pop("kb_name")
                kwargs.update(file)
                file = KnowledgeFile(filename=filename, knowledge_base_name=kb_name)
            kwargs["file"] = file
            kwargs["chunk_size"] = chunk_size
            kwargs["chunk_overlap"] = chunk_overlap
            kwargs["zh_title_enhance"] = zh_title_enhance
            kwargs_list.append(kwargs)
        except Exception as e:
            yield False, (kb_name, filename, str(e))

    for result in run_in_thread_pool(func=file2docs, params=kwargs_list):
        yield result


if __name__ == "__main__":
    from pprint import pprint

    kb_file = KnowledgeFile(
        filename="/home/congyin/Code/Project_Langchain_0814/Langchain-Chatchat/knowledge_base/csv1/content/gm.csv",
        knowledge_base_name="samples")
    # kb_file.text_splitter_name = "RecursiveCharacterTextSplitter"
    docs = kb_file.file2docs()
    # pprint(docs[-1])
-												remove server/knowledge_base/knowledge_base.py

											
										
										
											2023-08-08 13:36:20 +08:00
+								import os
-												优化configs (#1474)

* remove llm_model_dict

* optimize configs

* fix get_model_path

* 更改一些默认参数，添加千帆的默认配置

* Update server_config.py.example
											
										
										
											2023-09-15 17:52:22 +08:00
+								from configs import (
-												add SCORE_THRESHOLD to faiss and milvus kb service

											
										
										
											2023-08-10 00:36:51 +08:00
+								    KB_ROOT_PATH,
 								    CHUNK_SIZE,
 								    OVERLAP_SIZE,
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    ZH_TITLE_ENHANCE,
-												增加传入矢量名称加载

											
										
										
											2023-09-17 13:54:03 +08:00
+								    logger,
 								    log_verbose,
-												fix merge conflict for #1474 (#1494)


											
										
										
											2023-09-15 18:11:15 +08:00
+								    text_splitter_dict,
-												支持通过配置项同时启动多个模型，将Wiki纳入samples知识库 (#2002)

新功能：
- 将 LLM_MODEL 配置项改为 LLM_MODELS 列表，同时启动多个模型
- 将 wiki 纳入 samples 知识库

依赖变化：
- 指定 streamlit~=1.27.0。1.26.0会报rerun错误，1.28.0会有无限刷新错误

修复优化：
- 优化 get_default_llm_model 逻辑
- 适配 Qwen 在线 API 做 Embeddings 时最大 25 行的限制
- 列出知识库磁盘文件时跳过 . 开头的文件
											
										
										
											2023-11-09 22:15:52 +08:00
+								    LLM_MODELS,
-												fix merge conflict for #1474 (#1494)


											
										
										
											2023-09-15 18:11:15 +08:00
+								    TEXT_SPLITTER_NAME,
-												add SCORE_THRESHOLD to faiss and milvus kb service

											
										
										
											2023-08-10 00:36:51 +08:00
+								)
-												update webui and utils

											
										
										
											2023-08-10 23:04:05 +08:00
+								import importlib
-												fix : Duplicate variable and function name (#1509)

Co-authored-by: Jim <zhangpengyi@taijihuabao.com>
											
										
										
											2023-09-18 11:00:04 +08:00
+								from text_splitter import zh_title_enhance as func_zh_title_enhance
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
+								import langchain.document_loaders
 								from langchain.docstore.document import Document
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								from langchain.text_splitter import TextSplitter
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
+								from pathlib import Path
-												知识库支持子目录（不包括temp和tmp开头的目录），文件相对路径总长度不可超过255 (#1928)


											
										
										
											2023-10-31 16:59:40 +08:00
+								from server.utils import run_in_thread_pool, get_model_worker_config
-												修复：知识库json文件的中文被转为unicode码，导致无法匹配 (#2128)


											
										
										
											2023-11-21 21:00:46 +08:00
+								import json
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								from typing import List, Union,Dict, Tuple, Generator
-												修复csv文件解析编码报错的问题。 (#1508)


											
										
										
											2023-09-21 14:41:49 +08:00
+								import chardet
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
-												知识库支持子目录（不包括temp和tmp开头的目录），文件相对路径总长度不可超过255 (#1928)


											
										
										
											2023-10-31 16:59:40 +08:00
-												v0.2.0 first commit

											
										
										
											2023-07-27 23:22:07 +08:00
+								def validate_kb_name(knowledge_base_id: str) -> bool:
 								    # 检查是否包含预期外的字符或路径攻击关键字
 								    if "../" in knowledge_base_id:
 								        return False
 								    return True
-												add KBService and KBServiceFactory class

											
										
										
											2023-08-06 23:43:54 +08:00
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												add KBService and KBServiceFactory class

											
										
										
											2023-08-06 23:43:54 +08:00
+								def get_kb_path(knowledge_base_name: str):
 								    return os.path.join(KB_ROOT_PATH, knowledge_base_name)
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												add KBService and KBServiceFactory class

											
										
										
											2023-08-06 23:43:54 +08:00
+								def get_doc_path(knowledge_base_name: str):
 								    return os.path.join(get_kb_path(knowledge_base_name), "content")
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												增加传入矢量名称加载

											
										
										
											2023-09-17 13:54:03 +08:00
+								def get_vs_path(knowledge_base_name: str, vector_name: str):
-												支持在线 Embeddings, Lite 模式支持所有知识库相关功能 (#1924)

新功能：
- 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api
- API 增加 /other/embed_texts 接口
- init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）
- 对于 FAISS 知识库，支持多向量库，默认位置：{KB_PATH}/vector_store/{embed_model}
- Lite 模式支持所有知识库相关功能。此模式下最主要的限制是：
  - 不能使用本地 LLM 和 Embeddings 模型
  - 知识库不支持 PDF 文件
- init_database.py 重建知识库时不再默认情况数据库表，增加 clear-tables 参数手动控制。
- API 和 WEBUI 中 score_threshold 参数范围改为 [0, 2]，以更好的适应在线嵌入模型

问题修复：
- API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误

开发者：
- 统一向量库的识别：以（kb_name,embed_model）为判断向量库唯一性的依据，避免 FAISS 知识库缓存加载逻辑错误
- KBServiceFactory.get_service_by_name 中添加 default_embed_model 参数，用于在构建新知识库时设置 embed_model
- 优化 kb_service 中 Embeddings 操作：
  - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参
  - 统一文本嵌入接口：server.knowledge_base.kb_service.base.[embed_texts, embed_documents]
- 重写 normalize 函数，去除对 scikit-learn/scipy 的依赖 

											
										
										
											2023-10-31 14:26:50 +08:00
+								    return os.path.join(get_kb_path(knowledge_base_name), "vector_store", vector_name)
-												add KBService and KBServiceFactory class

											
										
										
											2023-08-06 23:43:54 +08:00
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												add KBService and KBServiceFactory class

											
										
										
											2023-08-06 23:43:54 +08:00
+								def get_file_path(knowledge_base_name: str, doc_name: str):
-												remove server/knowledge_base/knowledge_base.py

											
										
										
											2023-08-08 13:36:20 +08:00
+								    return os.path.join(get_doc_path(knowledge_base_name), doc_name)
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												move KBServiceFactory to server.knowledge_base.kb_service.base

											
										
										
											2023-08-08 17:41:58 +08:00
+								def list_kbs_from_folder():
 								    return [f for f in os.listdir(KB_ROOT_PATH)
 								            if os.path.isdir(os.path.join(KB_ROOT_PATH, f))]
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
+								def list_files_from_folder(kb_name: str):
-												支持软连接的知识库 (#2167)

* GLM3支持传入提示词

支持传入提示词的Agent ChatGLM3-6B

* 软连接处理

1. 有效的软连接处理，参考了 #2125
2. 更新了依赖，现在fschat原生支持GLM3的全功能

* 更新了支持的模型列表和依赖
1. 推荐用户使用GLM3-6B取代2代GLM模型
2. 推荐用户使用性能更强的bge模型
3 推荐使用vllm和torch的最新稳定版本
											
										
										
											2023-11-24 22:47:55 +08:00
+								    doc_path = get_doc_path(kb_name)
 								    result = []
 								    def is_skiped_path(path: str):
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								        tail = os.path.basename(path).lower()
 								        for x in ["temp", "tmp", ".", "~$"]:
 								            if tail.startswith(x):
-												支持软连接的知识库 (#2167)

* GLM3支持传入提示词

支持传入提示词的Agent ChatGLM3-6B

* 软连接处理

1. 有效的软连接处理，参考了 #2125
2. 更新了依赖，现在fschat原生支持GLM3的全功能

* 更新了支持的模型列表和依赖
1. 推荐用户使用GLM3-6B取代2代GLM模型
2. 推荐用户使用性能更强的bge模型
3 推荐使用vllm和torch的最新稳定版本
											
										
										
											2023-11-24 22:47:55 +08:00
+								                return True
 								        return False
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
-												支持软连接的知识库 (#2167)

* GLM3支持传入提示词

支持传入提示词的Agent ChatGLM3-6B

* 软连接处理

1. 有效的软连接处理，参考了 #2125
2. 更新了依赖，现在fschat原生支持GLM3的全功能

* 更新了支持的模型列表和依赖
1. 推荐用户使用GLM3-6B取代2代GLM模型
2. 推荐用户使用性能更强的bge模型
3 推荐使用vllm和torch的最新稳定版本
											
										
										
											2023-11-24 22:47:55 +08:00
+								    def process_entry(entry):
 								        if is_skiped_path(entry.path):
 								            return
 								        if entry.is_symlink():
 								            target_path = os.path.realpath(entry.path)
 								            with os.scandir(target_path) as target_it:
 								                for target_entry in target_it:
 								                    process_entry(target_entry)
 								        elif entry.is_file():
 								            result.append(entry.path)
 								        elif entry.is_dir():
 								            with os.scandir(entry.path) as it:
 								                for sub_entry in it:
 								                    process_entry(sub_entry)
 								    with os.scandir(doc_path) as it:
 								        for entry in it:
 								            process_entry(entry)
-												知识库支持子目录（不包括temp和tmp开头的目录），文件相对路径总长度不可超过255 (#1928)


											
										
										
											2023-10-31 16:59:40 +08:00
 								    return result
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
-												update format

											
										
										
											2023-08-27 20:23:07 +08:00
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
+								LOADER_DICT = {"UnstructuredHTMLLoader": ['.html'],
 								               "UnstructuredMarkdownLoader": ['.md'],
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								               "JSONLoader": [".json"],
 								               "JSONLinesLoader": [".jsonl"],
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								               "CSVLoader": [".csv"],
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								               # "FilteredCSVLoader": [".csv"], # 需要自己指定，目前还没有支持
-												add RapidOCRPDFLoader and RapidOCRLoader (#1275)

* add RapidOCRPDFLoader

* update mypdfloader.py and requirements.txt

* add myimgloader.py

* add test samples

* add TODO to mypdfloader

* add loaders to KnowledgeFile class

* add loaders to KnowledgeFile class
											
										
										
											2023-09-01 10:23:57 +08:00
+								               "RapidOCRPDFLoader": [".pdf"],
 								               "RapidOCRLoader": ['.png', '.jpg', '.jpeg', '.bmp'],
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								               "UnstructuredEmailLoader": ['.eml', '.msg'],
 								               "UnstructuredEPubLoader": ['.epub'],
 								               "UnstructuredExcelLoader": ['.xlsx', '.xlsd'],
 								               "NotebookLoader": ['.ipynb'],
 								               "UnstructuredODTLoader": ['.odt'],
 								               "PythonLoader": ['.py'],
 								               "UnstructuredRSTLoader": ['.rst'],
 								               "UnstructuredRTFLoader": ['.rtf'],
 								               "SRTLoader": ['.srt'],
 								               "TomlLoader": ['.toml'],
 								               "UnstructuredTSVLoader": ['.tsv'],
 								               "UnstructuredWordDocumentLoader": ['.docx', 'doc'],
 								               "UnstructuredXMLLoader": ['.xml'],
 								               "UnstructuredPowerPointLoader": ['.ppt', '.pptx'],
 								               "UnstructuredFileLoader": ['.txt'],
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								               }
 								SUPPORTED_EXTS = [ext for sublist in LOADER_DICT.values() for ext in sublist]
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
-												修复：知识库json文件的中文被转为unicode码，导致无法匹配 (#2128)


											
										
										
											2023-11-21 21:00:46 +08:00
+								# patch json.dumps to disable ensure_ascii
 								def _new_json_dumps(obj, **kwargs):
 								    kwargs["ensure_ascii"] = False
 								    return _origin_json_dumps(obj, **kwargs)
 								if json.dumps is not _new_json_dumps:
 								    _origin_json_dumps = json.dumps
 								    json.dumps = _new_json_dumps
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								class JSONLinesLoader(langchain.document_loaders.JSONLoader):
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
+								    '''
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								    行式 Json 加载器，要求文件扩展名为 .jsonl
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
+								    '''
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								    def __init__(self, *args, **kwargs):
 								        super().__init__(*args, **kwargs)
 								        self._json_lines = True
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
 								langchain.document_loaders.JSONLinesLoader = JSONLinesLoader
-												fix #1224: failed to load json and pdf files (#1252)

Co-authored-by: liunux4odoo <liunu@qq.com>
											
										
										
											2023-08-26 14:21:59 +08:00
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								def get_LoaderClass(file_extension):
 								    for LoaderClass, extensions in LOADER_DICT.items():
 								        if file_extension in extensions:
 								            return LoaderClass
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								# 把一些向量化共用逻辑从KnowledgeFile抽取出来，等langchain支持内存文件的时候，可以将非磁盘文件向量化
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								def get_loader(loader_name: str, file_path: str, loader_kwargs: Dict = None):
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    '''
 								    根据loader_name和文件路径或内容返回文档加载器。
 								    '''
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								    loader_kwargs = loader_kwargs or {}
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    try:
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								        if loader_name in ["RapidOCRPDFLoader", "RapidOCRLoader","FilteredCSVLoader"]:
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								            document_loaders_module = importlib.import_module('document_loaders')
 								        else:
 								            document_loaders_module = importlib.import_module('langchain.document_loaders')
 								        DocumentLoader = getattr(document_loaders_module, loader_name)
 								    except Exception as e:
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								        msg = f"为文件{file_path}查找加载器{loader_name}时出错：{e}"
-												增加显示详细日志开关

											
										
										
											2023-09-08 20:48:31 +08:00
+								        logger.error(f'{e.__class__.__name__}: {msg}',
 								                     exc_info=e if log_verbose else None)
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								        document_loaders_module = importlib.import_module('langchain.document_loaders')
 								        DocumentLoader = getattr(document_loaders_module, "UnstructuredFileLoader")
 								    if loader_name == "UnstructuredFileLoader":
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								        loader_kwargs.setdefault("autodetect_encoding", True)
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    elif loader_name == "CSVLoader":
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								        if not loader_kwargs.get("encoding"):
 								            # 如果未指定 encoding，自动识别文件编码类型，避免langchain loader 加载文件报编码错误
 								            with open(file_path, 'rb') as struct_file:
 								                encode_detect = chardet.detect(struct_file.read())
 								            if encode_detect is None:
 								                encode_detect = {"encoding": "utf-8"}
 								            loader_kwargs["encoding"] = encode_detect["encoding"]
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								        ## TODO：支持更多的自定义CSV读取逻辑
-												修复csv文件解析编码报错的问题。 (#1508)


											
										
										
											2023-09-21 14:41:49 +08:00
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    elif loader_name == "JSONLoader":
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								        loader_kwargs.setdefault("jq_schema", ".")
 								        loader_kwargs.setdefault("text_content", False)
-												知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079)

* 知识库支持行式 json 文件
如果要使用 json 文件， 需要 `conda install jq`（windows 下 pip install jq 会失败）

开发者：
删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。

* 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件
为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器
											
										
										
											2023-11-16 09:37:09 +08:00
+								    elif loader_name == "JSONLinesLoader":
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								        loader_kwargs.setdefault("jq_schema", ".")
 								        loader_kwargs.setdefault("text_content", False)
 								    loader = DocumentLoader(file_path, **loader_kwargs)
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    return loader
 								def make_text_splitter(
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								        splitter_name: str = TEXT_SPLITTER_NAME,
 								        chunk_size: int = CHUNK_SIZE,
 								        chunk_overlap: int = OVERLAP_SIZE,
-												支持通过配置项同时启动多个模型，将Wiki纳入samples知识库 (#2002)

新功能：
- 将 LLM_MODEL 配置项改为 LLM_MODELS 列表，同时启动多个模型
- 将 wiki 纳入 samples 知识库

依赖变化：
- 指定 streamlit~=1.27.0。1.26.0会报rerun错误，1.28.0会有无限刷新错误

修复优化：
- 优化 get_default_llm_model 逻辑
- 适配 Qwen 在线 API 做 Embeddings 时最大 25 行的限制
- 列出知识库磁盘文件时跳过 . 开头的文件
											
										
										
											2023-11-09 22:15:52 +08:00
+								        llm_model: str = LLM_MODELS[0],
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								):
-												update README.md

											
										
										
											2023-09-15 09:53:58 +08:00
+								    """
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    根据参数获取特定的分词器
-												update README.md

											
										
										
											2023-09-15 09:53:58 +08:00
+								    """
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    splitter_name = splitter_name or "SpacyTextSplitter"
 								    try:
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								        if splitter_name == "MarkdownHeaderTextSplitter":  # MarkdownHeaderTextSplitter特殊判定
 								            headers_to_split_on = text_splitter_dict[splitter_name]['headers_to_split_on']
 								            text_splitter = langchain.text_splitter.MarkdownHeaderTextSplitter(
 								                headers_to_split_on=headers_to_split_on)
 								        else:
 								            try:  ## 优先使用用户自定义的text_splitter
 								                text_splitter_module = importlib.import_module('text_splitter')
 								                TextSplitter = getattr(text_splitter_module, splitter_name)
 								            except:  ## 否则使用langchain的text_splitter
 								                text_splitter_module = importlib.import_module('langchain.text_splitter')
 								                TextSplitter = getattr(text_splitter_module, splitter_name)
-												修复测试文件 (#1467)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 17:12:05 +08:00
+								            if text_splitter_dict[splitter_name]["source"] == "tiktoken":  ## 从tiktoken加载
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								                try:
 								                    text_splitter = TextSplitter.from_tiktoken_encoder(
 								                        encoding_name=text_splitter_dict[splitter_name]["tokenizer_name_or_path"],
 								                        pipeline="zh_core_web_sm",
 								                        chunk_size=chunk_size,
 								                        chunk_overlap=chunk_overlap
 								                    )
 								                except:
 								                    text_splitter = TextSplitter.from_tiktoken_encoder(
 								                        encoding_name=text_splitter_dict[splitter_name]["tokenizer_name_or_path"],
 								                        chunk_size=chunk_size,
 								                        chunk_overlap=chunk_overlap
 								                    )
-												修复测试文件 (#1467)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 17:12:05 +08:00
+								            elif text_splitter_dict[splitter_name]["source"] == "huggingface":  ## 从huggingface加载
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								                if text_splitter_dict[splitter_name]["tokenizer_name_or_path"] == "":
-												优化configs (#1474)

* remove llm_model_dict

* optimize configs

* fix get_model_path

* 更改一些默认参数，添加千帆的默认配置

* Update server_config.py.example
											
										
										
											2023-09-15 17:52:22 +08:00
+								                    config = get_model_worker_config(llm_model)
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								                    text_splitter_dict[splitter_name]["tokenizer_name_or_path"] = \
-												优化configs (#1474)

* remove llm_model_dict

* optimize configs

* fix get_model_path

* 更改一些默认参数，添加千帆的默认配置

* Update server_config.py.example
											
										
										
											2023-09-15 17:52:22 +08:00
+								                        config.get("model_path")
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
 								                if text_splitter_dict[splitter_name]["tokenizer_name_or_path"] == "gpt2":
 								                    from transformers import GPT2TokenizerFast
 								                    from langchain.text_splitter import CharacterTextSplitter
-												修复测试文件 (#1467)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 17:12:05 +08:00
+								                    tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")
 								                else:  ## 字符长度加载
-												支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api (#1907)

* 新功能：
- 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api
- API 增加 /other/embed_texts 接口
- init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）

问题修复：
- API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误

开发者：
- 优化 kb_service 中 Embeddings 操作：
  - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参
  - 统一文本嵌入接口：server.embedding_api.[embed_texts, embed_documents]

											
										
										
											2023-10-28 23:37:30 +08:00
+								                    from transformers import AutoTokenizer
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								                    tokenizer = AutoTokenizer.from_pretrained(
 								                        text_splitter_dict[splitter_name]["tokenizer_name_or_path"],
 								                        trust_remote_code=True)
 								                text_splitter = TextSplitter.from_huggingface_tokenizer(
 								                    tokenizer=tokenizer,
 								                    chunk_size=chunk_size,
 								                    chunk_overlap=chunk_overlap
 								                )
-												修复测试文件 (#1467)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 17:12:05 +08:00
+								            else:
 								                try:
 								                    text_splitter = TextSplitter(
 								                        pipeline="zh_core_web_sm",
 								                        chunk_size=chunk_size,
 								                        chunk_overlap=chunk_overlap
 								                    )
 								                except:
 								                    text_splitter = TextSplitter(
 								                        chunk_size=chunk_size,
 								                        chunk_overlap=chunk_overlap
 								                    )
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    except Exception as e:
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								        print(e)
 								        text_splitter_module = importlib.import_module('langchain.text_splitter')
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								        TextSplitter = getattr(text_splitter_module, "RecursiveCharacterTextSplitter")
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								        text_splitter = TextSplitter(chunk_size=250, chunk_overlap=50)
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    return text_splitter
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								class KnowledgeFile:
 								    def __init__(
 								            self,
 								            filename: str,
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								            knowledge_base_name: str,
 								            loader_kwargs: Dict = {},
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								    ):
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								        '''
 								        对应知识库目录中的文件，必须是磁盘上存在的才能进行向量化等操作。
 								        '''
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								        self.kb_name = knowledge_base_name
 								        self.filename = filename
-												Update utils.py (#1128)

不区分文件扩展名的大小写。
											
										
										
											2023-08-16 22:40:05 +08:00
+								        self.ext = os.path.splitext(filename)[-1].lower()
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								        if self.ext not in SUPPORTED_EXTS:
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								            raise ValueError(f"暂未支持的文件格式 {self.filename}")
 								        self.loader_kwargs = loader_kwargs
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								        self.filepath = get_file_path(knowledge_base_name, filename)
 								        self.docs = None
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								        self.splited_docs = None
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
+								        self.document_loader_name = get_LoaderClass(self.ext)
-												fix merge conflict for #1474 (#1494)


											
										
										
											2023-09-15 18:11:15 +08:00
+								        self.text_splitter_name = TEXT_SPLITTER_NAME
-												remove server/knowledge_base/knowledge_base_factory.py

											
										
										
											2023-08-08 16:21:00 +08:00
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								    def file2docs(self, refresh: bool = False):
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								        if self.docs is None or refresh:
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								            logger.info(f"{self.document_loader_name} used for {self.filepath}")
-												开发者： (#2091)

- 修复列出知识库磁盘文件时跳过临时文件的bug：只有目录被排除了，文件未排除
- 优化知识库文档加载器：
  - 将 elements 模式改为 single 模式，避免文档被切分得太碎
  - 给 get_loader 和 KnowledgeFile 增加 loader_kwargs 参数，可以自定义文档加载器参数
											
										
										
											2023-11-17 11:39:32 +08:00
+								            loader = get_loader(loader_name=self.document_loader_name,
 								                                file_path=self.filepath,
 								                                loader_kwargs=self.loader_kwargs)
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								            self.docs = loader.load()
 								        return self.docs
 								    def docs2texts(
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								            self,
 								            docs: List[Document] = None,
 								            zh_title_enhance: bool = ZH_TITLE_ENHANCE,
 								            refresh: bool = False,
 								            chunk_size: int = CHUNK_SIZE,
 								            chunk_overlap: int = OVERLAP_SIZE,
 								            text_splitter: TextSplitter = None,
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								    ):
 								        docs = docs or self.file2docs(refresh=refresh)
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								        if not docs:
 								            return []
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								        if self.ext not in [".csv"]:
 								            if text_splitter is None:
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								                text_splitter = make_text_splitter(splitter_name=self.text_splitter_name, chunk_size=chunk_size,
 								                                                   chunk_overlap=chunk_overlap)
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								            if self.text_splitter_name == "MarkdownHeaderTextSplitter":
 								                docs = text_splitter.split_text(docs[0].page_content)
 								            else:
 								                docs = text_splitter.split_documents(docs)
-												[BUG] 修复csv文件读取后，单行数据被分成多段。

											
										
										
											2023-08-26 11:45:01 +08:00
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								        print(f"文档切分示例：{docs[0]}")
-												api和webui知识库操作支持chunk_size/overlap_size/zh_title_enhance参数 (#1459)


											
										
										
											2023-09-13 11:19:47 +08:00
+								        if zh_title_enhance:
-												fix : Duplicate variable and function name (#1509)

Co-authored-by: Jim <zhangpengyi@taijihuabao.com>
											
										
										
											2023-09-18 11:00:04 +08:00
+								            docs = func_zh_title_enhance(docs)
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								        self.splited_docs = docs
 								        return self.splited_docs
 								    def file2text(
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								            self,
 								            zh_title_enhance: bool = ZH_TITLE_ENHANCE,
 								            refresh: bool = False,
 								            chunk_size: int = CHUNK_SIZE,
 								            chunk_overlap: int = OVERLAP_SIZE,
 								            text_splitter: TextSplitter = None,
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								    ):
 								        if self.splited_docs is None or refresh:
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								            docs = self.file2docs()
 								            self.splited_docs = self.docs2texts(docs=docs,
-												api和webui知识库操作支持chunk_size/overlap_size/zh_title_enhance参数 (#1459)


											
										
										
											2023-09-13 11:19:47 +08:00
+								                                                zh_title_enhance=zh_title_enhance,
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								                                                refresh=refresh,
 								                                                chunk_size=chunk_size,
 								                                                chunk_overlap=chunk_overlap,
 								                                                text_splitter=text_splitter)
 								        return self.splited_docs
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    def file_exist(self):
 								        return os.path.isfile(self.filepath)
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
 								    def get_mtime(self):
 								        return os.path.getmtime(self.filepath)
 								    def get_size(self):
 								        return os.path.getsize(self.filepath)
 								def files2docs_in_thread(
-												增加构建文档metadata检索的开关

											
										
										
											2023-09-05 18:35:11 +08:00
+								        files: List[Union[KnowledgeFile, Tuple[str, str], Dict]],
-												api和webui知识库操作支持chunk_size/overlap_size/zh_title_enhance参数 (#1459)


											
										
										
											2023-09-13 11:19:47 +08:00
+								        chunk_size: int = CHUNK_SIZE,
 								        chunk_overlap: int = OVERLAP_SIZE,
 								        zh_title_enhance: bool = ZH_TITLE_ENHANCE,
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
+								) -> Generator:
 								    '''
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								    利用多线程批量将磁盘文件转化成langchain Document.
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								    如果传入参数是Tuple，形式为(filename, kb_name)
 								    生成器返回值为 status, (kb_name, file_name, docs | error)
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
+								    '''
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								    def file2docs(*, file: KnowledgeFile, **kwargs) -> Tuple[bool, Tuple[str, str, List[Document]]]:
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
+								        try:
 								            return True, (file.kb_name, file.filename, file.file2text(**kwargs))
 								        except Exception as e:
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								            msg = f"从文件 {file.kb_name}/{file.filename} 加载文档时出错：{e}"
-												增加显示详细日志开关

											
										
										
											2023-09-08 20:48:31 +08:00
+								            logger.error(f'{e.__class__.__name__}: {msg}',
 								                         exc_info=e if log_verbose else None)
-												新功能:
- 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率
- API的重建知识库接口支持多线程
- add_docs可提供参数控制上传文件后是否继续进行向量化
- add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs
- download_doc接口添加`preview`参数，支持下载或预览
- kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作）
- 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备
- KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义

其它：
- 将部分错误输出由print改为logger.error

											
										
										
											2023-09-08 08:55:12 +08:00
+								            return False, (file.kb_name, file.filename, msg)
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
 								    kwargs_list = []
 								    for i, file in enumerate(files):
 								        kwargs = {}
-												修复webui中重建知识库以及对话界面UI错误 (#1615)

* 修复bug:webui点重建知识库时，如果存在不支持的文件会导致整个接口错误;migrate中没有导入CHUNK_SIZE

* 修复：webui对话界面的expander一直为running状态；简化历史消息获取方法
											
										
										
											2023-09-28 15:12:03 +08:00
+								        try:
 								            if isinstance(file, tuple) and len(file) >= 2:
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								                filename = file[0]
 								                kb_name = file[1]
-												修复webui中重建知识库以及对话界面UI错误 (#1615)

* 修复bug:webui点重建知识库时，如果存在不支持的文件会导致整个接口错误;migrate中没有导入CHUNK_SIZE

* 修复：webui对话界面的expander一直为running状态；简化历史消息获取方法
											
										
										
											2023-09-28 15:12:03 +08:00
+								                file = KnowledgeFile(filename=filename, knowledge_base_name=kb_name)
 								            elif isinstance(file, dict):
 								                filename = file.pop("filename")
 								                kb_name = file.pop("kb_name")
 								                kwargs.update(file)
 								                file = KnowledgeFile(filename=filename, knowledge_base_name=kb_name)
 								            kwargs["file"] = file
 								            kwargs["chunk_size"] = chunk_size
 								            kwargs["chunk_overlap"] = chunk_overlap
 								            kwargs["zh_title_enhance"] = zh_title_enhance
 								            kwargs_list.append(kwargs)
 								        except Exception as e:
 								            yield False, (kb_name, filename, str(e))
-												增加显示详细日志开关

											
										
										
											2023-09-08 20:48:31 +08:00
-												支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api (#1907)

* 新功能：
- 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api
- API 增加 /other/embed_texts 接口
- init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）

问题修复：
- API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误

开发者：
- 优化 kb_service 中 Embeddings 操作：
  - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参
  - 统一文本嵌入接口：server.embedding_api.[embed_texts, embed_documents]

											
										
										
											2023-10-28 23:37:30 +08:00
+								    for result in run_in_thread_pool(func=file2docs, params=kwargs_list):
-												增加数据库字段，重建知识库使用多线程 (#1280)

* close #1172: 给webui_page/utils添加一些log信息，方便定位错误

* 修复：重建知识库时页面未实时显示进度

* skip model_worker running when using online model api such as chatgpt

* 修改知识库管理相关内容:
1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。
2.给所有String字段加上长度，防止mysql建表错误(pr#1177)
3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs
4.为faiss_kb_service增加一些方法，便于调用
5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。

* 修复/chat/fastchat无法流式输出的问题

* 新增功能：
1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。
2、重建知识库`python init_database.py --recreate-vs`支持多线程。

其它：
统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。

---------

Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771 
											
										
										
											2023-08-28 13:50:35 +08:00
+								        yield result
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
 								if __name__ == "__main__":
 								    from pprint import pprint
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								    kb_file = KnowledgeFile(
 								        filename="/home/congyin/Code/Project_Langchain_0814/Langchain-Chatchat/knowledge_base/csv1/content/gm.csv",
 								        knowledge_base_name="samples")
-												将KnowledgeFile的file2text拆分成file2docs、docs2texts和file2text三个部分，在保持接口不变的情况下，实现：
1、支持chunk_size和chunk_overlap参数
2、支持自定义text_splitter
3、支持自定义docs
修复：csv文件不使用text_splitter

											
										
										
											2023-09-04 16:37:44 +08:00
+								    # kb_file.text_splitter_name = "RecursiveCharacterTextSplitter"
 								    docs = kb_file.file2docs()
-												一些细节优化 (#1891)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-10-27 11:52:44 +08:00
+								    # pprint(docs[-1])