Langchain-Chatchat/docs/splitter.md

## 如何自定义分词器

### 在哪里写，哪些文件要改
1. 在```text_splitter```文件夹下新建一个文件，文件名为您的分词器名字，比如`my_splitter.py`，然后在`__init__.py`中导入您的分词器，如下所示：
```python
from .my_splitter import MySplitter
```

2. 修改```config/model_config.py```文件，将您的分词器名字添加到```text_splitter_dict```中，如下所示：
```python
MySplitter: {
        "source": "huggingface",  ## 选择tiktoken则使用openai的方法
        "tokenizer_name_or_path": "your tokenizer", #如果选择huggingface则使用huggingface的方法，部分tokenizer需要从Huggingface下载
    }
TEXT_SPLITTER_NAME = "MySplitter"
```

完成上述步骤后，就能使用自己的分词器了。

### 如何贡献您的分词器

1. 将您的分词器所在的代码文件放在```text_splitter```文件夹下，文件名为您的分词器名字，比如`my_splitter.py`，然后在`__init__.py`中导入您的分词器。
2. 发起PR，并说明您的分词器面向的场景或者改进之处。我们非常期待您能举例一个具体的应用场景。
3. 在Readme.md中添加您的分词器的使用方法和支持说明。
-												update splitter.md

											
										
										
											2023-09-14 22:24:58 +08:00
+								## 如何自定义分词器
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
 								### 在哪里写，哪些文件要改
 . 在```text_splitter```文件夹下新建一个文件，文件名为您的分词器名字，比如`my_splitter.py`，然后在`__init__.py`中导入您的分词器，如下所示：
 								```python
 								from .my_splitter import MySplitter
 								```
-												update splitter.md

											
										
										
											2023-09-14 22:24:58 +08:00
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+. 修改```config/model_config.py```文件，将您的分词器名字添加到```text_splitter_dict```中，如下所示：
 								```python
-												修复测试文件 (#1467)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 17:12:05 +08:00
+								MySplitter: {
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								        "source": "huggingface",  ## 选择tiktoken则使用openai的方法
-												修复测试文件 (#1467)

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 17:12:05 +08:00
+								        "tokenizer_name_or_path": "your tokenizer", #如果选择huggingface则使用huggingface的方法，部分tokenizer需要从Huggingface下载
 								    }
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								TEXT_SPLITTER_NAME = "MySplitter"
 								```
-												update splitter.md

											
										
										
											2023-09-14 22:24:58 +08:00
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+								完成上述步骤后，就能使用自己的分词器了。
 								### 如何贡献您的分词器
-												update splitter.md

											
										
										
											2023-09-14 22:24:58 +08:00
-												增加了自定义分词器适配 (#1462)

* 添加了自定义分词器适配和测试文件
---------

Co-authored-by: zR <zRzRzRzRzRzRzR>
											
										
										
											2023-09-13 15:42:12 +08:00
+. 将您的分词器所在的代码文件放在```text_splitter```文件夹下，文件名为您的分词器名字，比如`my_splitter.py`，然后在`__init__.py`中导入您的分词器。
 . 发起PR，并说明您的分词器面向的场景或者改进之处。我们非常期待您能举例一个具体的应用场景。
 . 在Readme.md中添加您的分词器的使用方法和支持说明。