Langchain-Chatchat/docs/splitter.md

1.1 KiB
Raw Blame History

自定义分词器

在哪里写,哪些文件要改

  1. text_splitter文件夹下新建一个文件,文件名为您的分词器名字,比如my_splitter.py,然后在__init__.py中导入您的分词器,如下所示:
from .my_splitter import MySplitter
  1. 修改config/model_config.py文件,将您的分词器名字添加到text_splitter_dict中,如下所示:
MySplitter": {
        "source": "huggingface",  ## 选择tiktoken则使用openai的方法
        "tokenizer_name_or_path": "your tokenizer",
        "chunk_size": 250,
        "overlap_size": 50,
    },
TEXT_SPLITTER_NAME = "MySplitter"

完成上述步骤后,就能使用自己的分词器了。

如何贡献您的分词器

  1. 将您的分词器所在的代码文件放在text_splitter文件夹下,文件名为您的分词器名字,比如my_splitter.py,然后在__init__.py中导入您的分词器。
  2. 发起PR并说明您的分词器面向的场景或者改进之处。我们非常期待您能举例一个具体的应用场景。
  3. 在Readme.md中添加您的分词器的使用方法和支持说明。