84 KiB
FunctionDef normalize(embeddings)
normalize: 此函数的功能是对输入的嵌入向量进行L2范数归一化处理。
参数:
- embeddings: 一个列表的列表,其中每个内部列表包含浮点数,代表一个嵌入向量。
代码描述:
normalize函数接受一个嵌入向量列表作为输入,这些嵌入向量可以是文档或查询的表示。它首先计算每个嵌入向量的L2范数,然后将每个向量的元素分别除以其L2范数,以实现归一化。这个过程确保了所有的嵌入向量都被规范化到单位球上,这在很多向量空间模型中是一个常见的预处理步骤,有助于提高后续处理的效果和稳定性。
在项目中,normalize函数被EmbeddingsFunAdapter类中的embed_documents、embed_query、aembed_documents和aembed_query方法调用。这些方法分别负责同步和异步地嵌入文档和查询,然后使用normalize函数对嵌入结果进行归一化处理。这表明归一化步骤是嵌入过程的一个重要组成部分,无论是处理文档还是查询,都需要进行归一化以确保嵌入向量的质量。
注意:
- 输入的嵌入向量列表需要确保每个向量的维度相同,因为归一化过程涉及到按元素的运算。
- 该函数依赖于
numpy库进行矩阵运算,因此在使用前需要确保已经安装了numpy。
输出示例:
假设输入的嵌入向量列表为[[1.0, 2.0], [2.0, 3.0]],则函数的返回值可能如下所示:
[[0.4472136 0.89442719]
[0.5547002 0.83205029]]
这个输出展示了两个经过L2范数归一化的二维向量。
ClassDef SupportedVSType
SupportedVSType: SupportedVSType的功能是定义支持的向量存储类型。
属性:
- FAISS: 代表使用FAISS作为向量存储服务。
- MILVUS: 代表使用MILVUS作为向量存储服务。
- DEFAULT: 代表使用默认的向量存储服务。
- ZILLIZ: 代表使用ZILLIZ作为向量存储服务。
- PG: 代表使用PostgreSQL (PG) 作为向量存储服务。
- ES: 代表使用Elasticsearch (ES) 作为向量存储服务。
- CHROMADB: 代表使用ChromaDB作为向量存储服务。
代码描述: SupportedVSType类是一个枚举类,它定义了在知识库服务中支持的各种向量存储类型。这些类型包括FAISS、MILVUS、ZILLIZ、PostgreSQL、Elasticsearch和ChromaDB等,以及一个默认选项。这个类在项目中的主要作用是在知识库服务工厂(KBServiceFactory)中,根据传入的向量存储类型字符串,动态选择并实例化对应的知识库服务实现。例如,如果指定了FAISS作为向量存储类型,那么KBServiceFactory将实例化并返回一个FaissKBService对象。
在项目中,SupportedVSType类通过KBServiceFactory的get_service方法被调用,以确定并实例化相应的知识库服务。此外,各个具体的知识库服务类(如FaissKBService、MilvusKBService等)也通过实现vs_type方法,返回其对应的SupportedVSType值,以标识它们支持的向量存储类型。
注意:
- 在使用SupportedVSType时,应确保传入的向量存储类型字符串与SupportedVSType中定义的属性名称一致,以避免在动态解析时发生错误。
- DEFAULT类型通常用于指定一个默认的向量存储服务,具体实现可能会根据项目配置或环境而变化。
- 在扩展项目以支持新的向量存储服务时,应在SupportedVSType中添加相应的属性,并在KBServiceFactory中实现相应的逻辑以支持新的服务类型。
ClassDef KBService
KBService: KBService 类是用于管理和操作知识库的抽象基类,提供了一系列对知识库进行操作的方法。
属性:
kb_name: 知识库名称。kb_info: 知识库信息,如果在KB_INFO中找不到对应的知识库名称,则显示为"关于xxx的知识库"。embed_model: 嵌入模型名称,默认为EMBEDDING_MODEL。kb_path: 知识库路径。doc_path: 文档路径。
代码描述: KBService 类定义了一系列方法用于管理知识库,包括创建知识库、删除知识库、向知识库添加文档、从知识库删除文档、更新知识库信息、文档搜索等。它是一个抽象基类(ABC),意味着它不能直接实例化,而是需要通过继承它的子类来实现具体的功能。这样的设计允许不同类型的知识库服务(如Faiss、Milvus、Elasticsearch等)实现相同的接口,从而提供一致的操作方式。
KBService 类在项目中被多个子类继承,每个子类代表一种特定类型的知识库服务,例如FaissKBService、MilvusKBService等。这些子类实现了KBService类中定义的抽象方法,以适应不同知识库的具体操作需求。
此外,KBService 类还与KBServiceFactory类相关联,KBServiceFactory类提供了get_service和get_service_by_name方法,用于根据知识库名称和向量存储类型动态创建相应的知识库服务实例。这种工厂模式的设计使得在不同知识库服务之间切换变得更加灵活和方便。
注意:
- 由于KBService是一个抽象基类,直接实例化KBService会引发错误。应该通过继承KBService并实现其抽象方法的方式来创建子类。
- 在使用KBService的子类时,需要确保已经正确配置了知识库的相关信息,如知识库名称、嵌入模型名称等。
- 在进行知识库操作(如添加文档、搜索文档等)时,需要注意操作的具体实现可能会依赖于所使用的知识库服务类型。
输出示例: 由于KBService是一个抽象基类,它本身不直接产生输出。具体的输出将取决于继承KBService的子类以及实现的方法。例如,一个可能的搜索文档的输出示例为:
[
{"id": "doc1", "text": "文档1的内容", "score": 0.95},
{"id": "doc2", "text": "文档2的内容", "score": 0.90}
]
这表示在执行搜索操作时,返回了两个文档及其相关性得分。
FunctionDef init(self, knowledge_base_name, embed_model)
init: 此函数的功能是初始化KBService类的实例。
参数:
- knowledge_base_name: 字符串类型,指定知识库的名称。
- embed_model: 字符串类型,默认值为EMBEDDING_MODEL,指定嵌入模型的名称。
代码描述:
__init__ 方法是 KBService 类的构造函数,负责初始化该类的实例。在这个方法中,首先将传入的知识库名称(knowledge_base_name)赋值给实例变量 self.kb_name。然后,使用 KB_INFO.get 方法尝试从一个预定义的字典 KB_INFO 中获取与 knowledge_base_name 对应的知识库信息,如果未找到,则使用默认信息("关于{knowledge_base_name}的知识库")。接下来,将传入的嵌入模型名称(embed_model)赋值给实例变量 self.embed_model。
此外,__init__ 方法调用了 get_kb_path 和 get_doc_path 函数,分别用于获取知识库的存储路径和文档存储路径,并将这些路径分别赋值给实例变量 self.kb_path 和 self.doc_path。这两个函数分别位于 server/knowledge_base/utils.py 文件中,get_kb_path 函数负责构造并返回知识库的文件路径,而 get_doc_path 函数则负责获取知识库文档的存储路径。
最后,__init__ 方法调用了 do_init 方法,这是一个在 KBService 类中定义的方法,用于执行进一步的初始化操作。当前,do_init 方法的实现可能为空(使用 pass 关键字),但它的存在表明在初始化 KBService 实例时可能需要执行的额外步骤或特定的初始化逻辑。
注意:
- 在使用
KBService类之前,确保KB_INFO字典已经被正确定义,且包含了所有可能的知识库名称及其对应的信息。 EMBEDDING_MODEL应为一个有效的嵌入模型名称,默认值应在类或模块的其他部分被定义。do_init方法的具体实现应根据实际需求进行添加,以完成知识库服务的特定初始化需求。
FunctionDef repr(self)
repr: 此函数的功能是生成对象的官方字符串表示。
参数: 此函数没有参数。
代码描述: __repr__ 方法是一个特殊方法,用于定义对象的“官方”字符串表示。在 Python 中,当我们尝试使用 repr() 函数或者在解释器中直接查询对象时,会调用此方法。在本例中,__repr__ 方法返回一个格式化的字符串,该字符串包含了两个对象属性:kb_name 和 embed_model。这意味着当此方法被调用时,它会返回一个包含知识库名称 (kb_name) 和嵌入模型 (embed_model) 的字符串,两者通过 "@" 符号连接。这种表示方式有助于快速识别对象的关键信息,特别是在调试和日志记录中非常有用。
注意: 使用 __repr__ 方法时,应确保返回的字符串尽可能明确地反映对象的关键信息。此外,返回的字符串应该尽量遵循 Python 对象表示的惯例,即可能的话,应该能够通过执行这个字符串来重新创建该对象的一个相似实例。
输出示例: 假设一个 KBService 对象的 kb_name 属性值为 "KnowledgeBase1",embed_model 属性值为 "ModelX",那么调用此对象的 __repr__ 方法将返回字符串 "KnowledgeBase1 @ ModelX"。这提供了一个直观的方式来理解对象的主要属性。
FunctionDef save_vector_store(self)
save_vector_store: 此函数的功能是保存向量库。
参数: 此函数没有参数。
代码描述: save_vector_store 函数是KBService类的一个方法,它的主要作用是将向量库的数据持久化保存。在具体实现中,此函数根据不同的向量库类型(如FAISS、Milvus等)采取不同的保存策略。例如,对于FAISS类型的向量库,数据可能会被保存到磁盘上的文件中;而对于Milvus类型的向量库,数据则会被保存到数据库中。需要注意的是,当前代码示例中此函数的实现为空,这意味着具体的保存逻辑需要根据实际的向量库类型和需求来完成。
在项目中,save_vector_store函数被多个地方调用,以确保在进行文档的上传、删除、更新或向量库重建等操作后,向量库的状态能够被正确地保存。这些调用场景包括:
- 文档上传(
upload_docs):在上传文档并进行向量化处理后,根据not_refresh_vs_cache参数的值决定是否立即保存向量库。 - 文档删除(
delete_docs):在删除指定的文档后,根据not_refresh_vs_cache参数的值决定是否立即保存向量库。 - 文档更新(
update_docs):在更新文档内容并进行向量化处理后,根据not_refresh_vs_cache参数的值决定是否立即保存向量库。 - 向量库重建(
recreate_vector_store的output方法):在重建向量库的过程中,完成所有文档的向量化处理后,根据not_refresh_vs_cache参数的值决定是否立即保存向量库。 - 数据库文档清理(
prune_db_docs):在从数据库中删除不存在于本地文件夹中的文档后,保存向量库以确保向量库与数据库的一致性。
注意: 在使用save_vector_store函数时,需要根据实际使用的向量库类型(如FAISS、Milvus等)来实现具体的保存逻辑。此外,考虑到向量库可能包含大量数据,保存操作可能会涉及到较大的I/O开销,因此在设计调用此函数的策略时应当考虑到性能影响,合理安排保存向量库的时机。
FunctionDef create_kb(self)
create_kb: 此函数的功能是创建知识库。
参数: 此函数没有参数。
代码描述: create_kb 方法是 KBService 类的一个核心方法,负责知识库的创建流程。该方法首先检查指定的文档路径是否存在,如果不存在,则创建该路径。接着,调用 do_create_kb 方法,这是一个预留给开发者的扩展点,允许在知识库创建的基础流程中插入自定义逻辑。之后,该方法会调用 add_kb_to_db 函数,将知识库的名称、简介、向量库类型和嵌入模型等信息添加到数据库中。add_kb_to_db 函数的执行结果(状态)会被返回,表示知识库创建操作的成功与否。
在整个创建流程中,do_create_kb 方法提供了一个扩展点,允许开发者根据具体需求实现特定的知识库创建逻辑,而 add_kb_to_db 函数则负责将知识库信息持久化到数据库中。这种设计模式不仅提高了代码的可扩展性,也确保了知识库创建过程的灵活性和可维护性。
注意:
- 在调用
create_kb方法之前,确保已经正确设置了KBService类的doc_path、kb_name、kb_info、vs_type()和embed_model属性,因为这些属性会在知识库创建过程中被使用。 do_create_kb方法默认不执行任何操作,需要在继承KBService类的子类中根据具体需求重写此方法。add_kb_to_db函数的调用需要确保传入的知识库名称是唯一的,以避免不必要的信息覆盖。
输出示例: 该方法返回一个布尔值,表示知识库创建操作的成功与否。例如,如果知识库成功创建并添加到数据库中,方法将返回 True。
FunctionDef clear_vs(self)
clear_vs: 此函数的功能是删除向量库中所有内容。
参数: 此函数不接受任何外部参数。
代码描述: clear_vs 方法是 KBService 类的一个成员方法,主要负责清除知识库中的向量数据。该方法首先调用 do_clear_vs 方法,执行删除向量数据之前的预处理操作,尽管在当前的实现中,do_clear_vs 方法的具体实现为空,但它为未来可能的逻辑扩展提供了接口。接下来,clear_vs 方法通过调用 delete_files_from_db 函数,传入知识库名称(self.kb_name),从数据库中删除与该知识库相关的所有文件记录。delete_files_from_db 函数的执行结果(布尔值)将作为 clear_vs 方法的返回值,指示操作是否成功完成。
注意:
- 在调用
clear_vs方法之前,确保知识库名称已正确设置在KBService实例的kb_name属性中。 - 该方法会永久删除知识库中的所有文件记录,此操作不可逆,请谨慎使用。
- 虽然当前
do_clear_vs方法的实现为空,但开发者在未来的开发中可以在此方法中添加删除向量数据之前需要执行的特定逻辑(如日志记录、数据备份、权限检查等)。
输出示例:
如果操作成功完成,clear_vs 方法将返回 True。例如,在成功删除知识库中所有内容后,方法返回值为:
True
此方法在项目中的调用场景包括但不限于知识库的删除操作(delete_kb 函数)、知识库向量存储的重建操作(recreate_vector_store 函数的 output 方法)、以及知识库迁移操作中的向量库重建(folder2db 函数)。这些场景均涉及到需要先清除知识库中现有的向量数据,再进行后续的操作,确保知识库的数据状态是最新的。
FunctionDef drop_kb(self)
drop_kb: 此函数的功能是删除知识库。
参数: 此函数不接受任何外部参数。
代码描述: drop_kb 方法是 KBService 类的一个成员方法,负责实现知识库的删除操作。该方法首先调用 do_drop_kb 方法来执行删除知识库的具体逻辑。do_drop_kb 方法是一个可由子类实现的方法,用于在删除知识库之前执行特定的逻辑,比如清理相关资源等。接着,drop_kb 方法调用 delete_kb_from_db 函数,该函数从数据库中删除指定名称的知识库。delete_kb_from_db 函数接受一个知识库名称作为参数,并返回一个布尔值,表示操作是否成功。最后,drop_kb 方法返回 delete_kb_from_db 函数的返回值,作为删除操作的最终状态。
注意:
- 在调用
drop_kb方法之前,应确保知识库名称已正确设置在KBService实例的kb_name属性中。 do_drop_kb方法在KBService类中默认不执行任何操作,具体的删除逻辑需要在子类中根据实际需求实现。- 删除知识库的操作不会自动提交数据库事务。调用
drop_kb方法的代码需要根据实际情况决定是否提交事务。
输出示例: 由于 drop_kb 方法返回的是 delete_kb_from_db 函数的返回值,而该函数始终返回 True,因此在成功执行删除操作后,drop_kb 方法的返回值将为 True。
在项目中,drop_kb 方法的调用场景包括但不限于通过 API 删除知识库、在自动化测试中验证知识库删除功能等。例如,在 delete_kb API 方法中,会根据提供的知识库名称创建 KBService 实例,并调用其 drop_kb 方法来删除知识库。此外,自动化测试 test_delete_db 和 test_drop_kb 也通过调用 drop_kb 方法来测试知识库的删除功能是否正常工作。这些调用示例说明了 drop_kb 方法在知识库管理功能中的重要作用,以及如何在不同场景下使用该方法来实现知识库的删除。
FunctionDef _docs_to_embeddings(self, docs)
_docs_to_embeddings: 该函数的功能是将文档对象列表转化为向量存储系统可以接受的参数格式。
参数:
docs: 需要转化为向量的文档对象列表,类型为List[Document]。
代码描述:
_docs_to_embeddings函数是KBService类的一个私有方法,用于将文档对象列表转化为向量形式,以便后续存储或查询操作。该函数内部调用了embed_documents函数,传入文档对象列表docs、嵌入模型embed_model以及一个标志位to_query。embed_model是KBService类的一个属性,指定了用于文档向量化的模型。to_query参数在此处被设置为False,意味着向量化的结果不是用于查询操作。embed_documents函数负责实际的文档向量化过程,包括文本提取、向量化以及元数据处理,最终返回一个包含向量化结果的字典。
注意:
- 确保传入的
docs参数是有效的文档对象列表,且每个文档对象都应包含必要的内容和元数据。 _docs_to_embeddings函数依赖于embed_model属性指定的嵌入模型,因此在使用前应确保嵌入模型已正确设置。- 该函数设计为KBService类的内部方法,不建议直接从类外部调用。
输出示例:
调用_docs_to_embeddings(docs=[Document1, Document2])可能会返回如下字典:
{
"texts": ["文档1的内容", "文档2的内容"],
"embeddings": [[0.1, 0.2, 0.3], [0.4, 0.5, 0.6]],
"metadatas": [{"title": "文档1标题"}, {"title": "文档2标题"}]
}
这个字典包含了文档的原始内容(texts)、向量化结果(embeddings)以及文档的元数据信息(metadatas),为后续的文档存储或查询操作提供了必要的数据结构。
FunctionDef add_doc(self, kb_file, docs)
add_doc: 此函数用于向知识库添加文件。
参数:
kb_file:KnowledgeFile类型的对象,表示要添加到知识库的文件。docs:Document类型的列表,默认为空列表。这些是要添加到知识库的文档。**kwargs: 接收额外的关键字参数,这些参数将传递给内部方法。
代码描述:
add_doc函数首先检查docs参数是否已提供。如果提供了docs,则将custom_docs标志设置为True,并为每个文档的元数据中添加source字段,其值为kb_file的文件名。如果没有提供docs,则调用kb_file的file2text方法将文件内容转换为文档列表,并将custom_docs标志设置为False。
接下来,如果docs列表不为空,函数会尝试将每个文档的source字段中的绝对路径转换为相对于self.doc_path的相对路径。然后,调用delete_doc方法删除知识库中与kb_file相对应的旧文档。
随后,调用do_add_doc方法将文档添加到知识库中,该方法需要在子类中具体实现。do_add_doc方法的执行结果(doc_infos)将用于调用add_file_to_db函数,将文件信息添加到数据库中。此过程中,会根据custom_docs标志和文档数量更新数据库中的文件条目。
最后,函数根据操作结果返回一个状态值,如果文档列表为空,则直接返回False。
注意:
- 在使用
add_doc函数时,需要确保传入的kb_file对象正确实例化,并且其代表的文件确实存在。 - 如果提供了
docs参数,则这些文档将直接添加到知识库中,不会对文件内容进行向量化处理。 **kwargs参数提供了额外的灵活性,允许在不修改add_doc函数签名的情况下,传递额外的参数给内部方法。
输出示例:
由于add_doc函数的主要作用是执行添加操作,其返回值主要用于指示操作是否成功。例如,如果文件成功添加到知识库并更新数据库,函数可能返回True。如果在添加过程中遇到任何问题,可能返回False。
FunctionDef delete_doc(self, kb_file, delete_content)
delete_doc: 此函数的功能是从知识库中删除指定的文件。
参数:
kb_file:KnowledgeFile类型的对象,表示需要从知识库中删除的文件。delete_content: 布尔值,指定是否从磁盘中删除文件内容。默认为False,即不删除文件内容。**kwargs: 接收额外的关键字参数,这些参数将传递给do_delete_doc方法。
代码描述:
delete_doc函数首先调用do_delete_doc方法,该方法需要在子类中根据具体逻辑进行实现,用于执行删除文件的自定义操作。随后,函数调用delete_file_from_db函数,从数据库中删除指定的知识文件,并更新相关知识库的文件计数。如果delete_content参数为True,且文件在磁盘上存在,则使用os.remove方法从磁盘中删除该文件。最后,函数返回删除操作的状态,该状态由delete_file_from_db函数的返回值决定。
注意:
- 在调用
delete_doc函数之前,需要确保传入的kb_file对象正确实例化,且其代表的文件确实存在于知识库中。 delete_content参数应谨慎使用,因为一旦从磁盘删除文件内容,该操作是不可逆的。**kwargs参数提供了额外的灵活性,允许在不修改delete_doc函数签名的情况下,传递额外的参数给do_delete_doc方法。
输出示例:
由于delete_doc函数的主要作用是执行删除操作,其返回值主要用于指示操作是否成功。例如,如果文件成功从数据库和(可选的)磁盘中删除,函数可能返回True。如果在删除过程中遇到任何问题,根据delete_file_from_db函数的实现,可能返回False或抛出异常。
FunctionDef update_info(self, kb_info)
update_info: 此函数的功能是更新知识库的介绍信息。
参数:
kb_info: 字符串类型,表示要更新的知识库介绍信息。
代码描述:
update_info函数主要用于更新知识库的介绍信息。它接收一个字符串参数kb_info,该参数包含了知识库的新介绍信息。函数首先将这个新的介绍信息赋值给self.kb_info,以更新当前知识库服务实例的介绍信息。随后,函数调用add_kb_to_db方法,将更新后的知识库信息(包括知识库名称self.kb_name、介绍信息self.kb_info、向量库类型self.vs_type()和嵌入模型self.embed_model)添加到数据库中。这里的self.vs_type()是通过调用vs_type方法获取的,该方法需要在KBService类的子类中具体实现,以返回正确的向量库类型。
add_kb_to_db函数负责将知识库信息添加或更新到数据库中。如果数据库中不存在具有相同名称的知识库,则会创建一个新的知识库记录;如果已存在,则更新该知识库的介绍信息、向量库类型和嵌入模型信息。add_kb_to_db函数最终返回一个布尔值,表示操作是否成功。
注意:
- 在调用
update_info函数之前,确保知识库名称self.kb_name已经正确设置,因为它是更新数据库记录的关键标识。 vs_type方法需要在KBService类的子类中实现,以确保能够提供正确的向量库类型信息。- 调用
update_info函数后,需要根据add_kb_to_db函数的返回值来判断更新操作是否成功。
输出示例:
由于update_info函数的返回值是由add_kb_to_db函数决定的,因此在成功更新知识库信息后,update_info函数将返回True。例如,如果更新操作成功完成,函数调用将返回True。
FunctionDef update_doc(self, kb_file, docs)
update_doc: 此函数用于使用指定的文件更新知识库中的文档。
参数:
kb_file:KnowledgeFile类型的对象,表示要更新的知识库文件。docs:Document类型的列表,表示自定义的文档列表。默认为空列表。**kwargs: 接收额外的关键字参数,这些参数将传递给内部的delete_doc和add_doc方法。
代码描述:
update_doc函数首先检查kb_file指定的文件路径是否存在。如果文件存在,则调用delete_doc方法删除知识库中与该文件对应的旧文档。随后,调用add_doc方法将新的文档添加到知识库中。如果在调用过程中指定了docs参数,则这些自定义文档将被添加到知识库中,并且数据库中对应的条目会被标记为custom_docs=True,表示这些文档是自定义的。如果没有指定docs,则add_doc方法会根据kb_file中的文件内容生成文档并添加到知识库中。
注意:
- 在使用
update_doc函数时,需要确保传入的kb_file对象已正确初始化,并且其代表的文件确实存在于磁盘上。 - 如果提供了
docs参数,则这些文档将直接添加到知识库中,而不会对kb_file中的文件内容进行再次处理或向量化。 **kwargs参数提供了额外的灵活性,允许在不修改update_doc函数签名的情况下,传递额外的参数给delete_doc和add_doc方法。
输出示例:
由于update_doc函数的主要作用是更新知识库中的文档,其没有直接的返回值。但是,通过调用delete_doc和add_doc方法,可以间接获得关于删除和添加操作的状态。例如,如果文档成功删除并添加到知识库,则这两个方法可能会返回操作成功的状态值。如果在更新过程中遇到任何问题,根据这两个方法的实现,可能会返回错误信息或抛出异常。
在项目中,update_doc函数被update_docs方法调用,用于处理来自API请求的知识库文档更新操作。这包括从文件生成文档、处理自定义文档以及更新知识库中的文档向量等任务。通过这种方式,update_doc函数在知识库管理系统中扮演了重要的角色,确保知识库内容的准确性和最新性。
FunctionDef exist_doc(self, file_name)
exist_doc: 此函数用于检查指定的文件是否已存在于知识库中。
参数:
file_name: 字符串类型,表示要检查是否存在的文件名。
代码描述:
exist_doc 函数通过接收一个文件名 (file_name) 作为参数,来检查该文件是否已经存在于知识库中。函数内部首先创建了一个 KnowledgeFile 对象,该对象包含了知识库的名称 (kb_name) 和文件名 (file_name)。然后,调用 file_exists_in_db 函数,将这个 KnowledgeFile 对象传递给它,以检查数据库中是否存在与之对应的文件记录。如果 file_exists_in_db 函数返回 True,表示文件已存在于数据库中;如果返回 False,则表示文件不存在。
注意:
- 确保传入的
file_name是正确的文件名,并且该文件名不应包含路径信息,只有文件名本身。 exist_doc函数依赖于KnowledgeFile类和file_exists_in_db函数,因此在使用前需要确保这些依赖项正确实现且可用。- 此函数不会对数据库进行任何修改操作,仅用于检查文件的存在性。
输出示例:
假设知识库中已存在名为 "example.pdf" 的文件,当调用 exist_doc("example.pdf") 时,函数将返回 True。如果文件 "new_document.txt" 不存在于知识库中,调用 exist_doc("new_document.txt") 将返回 False。
FunctionDef list_files(self)
list_files: 此函数的功能是列出属于特定知识库的所有文件名。
参数: 此函数不接受任何外部参数,但依赖于类实例中的kb_name属性。
代码描述: list_files函数是KBService类的一个方法,它的主要作用是调用list_files_from_db函数,以获取属于特定知识库的所有文件名。在调用list_files_from_db时,它传递了self.kb_name作为参数,这意味着它将列出与当前实例的kb_name属性相匹配的所有文件名。list_files_from_db函数进一步通过数据库会话查询KnowledgeFileModel模型,筛选出kb_name字段与给定知识库名称相匹配的记录,并返回这些记录的文件名列表。
注意:
- 确保在调用
list_files方法之前,KBService类的实例已正确初始化,并且kb_name属性已经被赋予了一个有效的知识库名称。 - 此方法的执行结果直接依赖于数据库中的数据,因此确保数据库已正确填充了相关知识库的文件信息。
- 由于
list_files_from_db函数使用了ilike方法进行查询,查询对大小写不敏感,但这可能会在某些情况下影响性能。
输出示例: 假设当前实例的kb_name属性值为"GeneralKB",并且数据库中存在属于"GeneralKB"的文件名为"document1.pdf"和"report2.docx"的文件,那么调用list_files方法将返回以下列表:
["document1.pdf", "report2.docx"]
此方法在项目中的使用场景包括但不限于获取知识库文件列表以供进一步处理,如在get_kb_file_details方法中获取文件列表以合并文件夹和数据库中的文件信息,在folder2db方法中用于确定需要更新或增量添加到数据库的文件列表,以及在测试用例中验证迁移、增量更新或数据库清理操作的正确性。
FunctionDef count_files(self)
count_files: 此函数的功能是统计指定知识库中的文件数量。
参数: 此函数不直接接受任何参数,但它依赖于KBService类的实例属性。
代码描述: count_files方法是KBService类的一个成员方法,它的主要作用是调用count_files_from_db函数来统计特定知识库中的文件数量。在调用count_files_from_db时,它传递了self.kb_name作为参数,其中self.kb_name是KBService类实例化时指定的知识库名称。这意味着count_files方法将返回该知识库中的文件总数。count_files_from_db函数通过数据库查询来实现此功能,具体地,它使用ORM模型KnowledgeFileModel来过滤特定知识库的文件,并计算满足条件的文件数量。
注意: 在使用count_files方法时,需要确保KBService类的实例已正确初始化,且kb_name属性已经被赋予了正确的知识库名称。此外,由于count_files_from_db函数使用了不区分大小写的匹配来查找知识库名称,因此在指定知识库名称时应注意其准确性,以避免统计结果的偏差。
输出示例: 假设存在一个名为"DefaultKB"的知识库,且其中包含10个文件。如果KBService类的实例的kb_name属性被设置为"DefaultKB",那么调用其count_files方法将返回整数10,表示"DefaultKB"知识库中的文件数量为10。
通过count_files方法,可以方便地获取特定知识库中的文件总数,这对于知识库管理和数据分析等功能是非常有用的。此方法的设计充分考虑了模块化和代码重用,通过与count_files_from_db函数的交互,实现了功能的高效执行。
FunctionDef search_docs(self, query, top_k, score_threshold)
search_docs: 此函数的功能是在知识库中搜索与查询字符串最相关的文档。
参数:
query: 字符串类型,用户的搜索查询。top_k: 整型,默认值为VECTOR_SEARCH_TOP_K,表示返回的最相关文档的最大数量。score_threshold: 浮点型,默认值为SCORE_THRESHOLD,表示只有得分高于此阈值的文档才会被返回。
代码描述:
search_docs方法是KBService类中的一个方法,旨在提供一个高层次的接口,用于执行知识库的搜索操作。该方法首先调用do_search方法,根据用户提供的查询字符串query,返回的最大文档数量top_k,以及得分阈值score_threshold,执行搜索操作。do_search方法负责具体的搜索逻辑,包括查询处理、文档检索和得分计算等。search_docs方法通过调用do_search,获取搜索结果后,直接将这些结果返回给调用者。这样的设计使得search_docs方法可以专注于处理搜索操作的高层次逻辑,如参数的默认值设置,而具体的搜索逻辑则由do_search方法负责。
注意:
- 在使用
search_docs方法时,需要注意query参数不能为空,且top_k和score_threshold参数应根据实际需求合理设置,以确保搜索结果的相关性和精确度。 - 该方法返回的是一个文档列表,每个文档都是搜索结果中与查询字符串相关性较高的文档。调用方需要根据自己的需求处理这些文档,例如展示给用户。
输出示例:
[
Document(id="1", title="文档标题1", content="文档内容1"),
Document(id="2", title="文档标题2", content="文档内容2"),
...
]
在项目中,search_docs方法被多个测试用例调用,包括test_faiss_kb.py、test_milvus_db.py和test_pg_db.py中的test_search_db函数。这些测试用例通过调用search_docs方法,验证不同知识库实现下的搜索功能是否正常工作,确保搜索结果的数量大于0。这表明search_docs方法是项目中用于执行知识库搜索操作的关键接口之一,其正确性和性能对于整个知识库服务的质量至关重要。
FunctionDef get_doc_by_ids(self, ids)
get_doc_by_ids: 此函数的功能是根据提供的文档ID列表检索对应的文档对象列表。
参数:
- ids: 一个字符串列表,包含需要检索的文档的ID。
代码描述:
get_doc_by_ids 函数是 KBService 类的一个方法,旨在根据给定的文档ID列表检索相应的文档对象。当前实现中,此函数返回一个空列表,这意味着它需要进一步的实现来完成其功能。在项目中,此函数被其他对象调用,以实现特定的业务逻辑。
例如,在 list_docs 方法中,通过文件名或元数据检索文档信息后,会使用 get_doc_by_ids 方法根据检索到的文档ID获取具体的文档对象。这一过程表明,get_doc_by_ids 方法是连接数据库检索与文档对象处理流程的关键一环。
另一个调用示例是在 summary_doc_ids_to_vector_store 函数中,该函数根据文档ID列表,使用 get_doc_by_ids 方法获取文档对象,进而进行文档摘要和向量存储的相关处理。这显示了 get_doc_by_ids 在文档处理和分析流程中的重要作用。
注意:
- 当前函数实现返回一个空列表,这表明需要根据实际的数据库或存储结构来完成此函数的具体实现。
- 在使用此函数时,需要确保传入的ID列表中的每个ID都是有效的,并且能够在数据库或存储系统中找到对应的文档。
输出示例:
假设函数已经实现,并且数据库中存在对应的文档,那么对于输入 ["doc1", "doc2"],一个可能的返回值示例为:
[
Document(id="doc1", title="文档1标题", content="文档1内容"),
Document(id="doc2", title="文档2标题", content="文档2内容")
]
这个示例展示了函数在成功检索到文档后可能返回的文档对象列表的结构。
FunctionDef del_doc_by_ids(self, ids)
del_doc_by_ids: 该函数的功能是根据提供的文档ID列表删除对应的文档。
参数:
- ids: 一个字符串列表,包含需要删除的文档的ID。
代码描述:
del_doc_by_ids 函数接受一个字符串列表作为参数,这个列表包含了需要被删除的文档的ID。函数的主体抛出了一个NotImplementedError异常,这表明该函数是一个抽象方法,需要在子类中被具体实现。在当前的上下文中,这个设计模式通常用于定义一个接口,强制继承该类的子类实现这个方法。
在项目中,del_doc_by_ids 函数被update_doc_by_ids 方法调用。update_doc_by_ids 方法的功能是更新给定ID的文档。如果传入的文档ID对应的文档不存在或者文档的page_content为空,则会调用del_doc_by_ids方法来删除这些文档。这种设计体现了一种先清理再更新的策略,确保在添加或更新文档之前,移除所有无效或不再需要的文档。
注意:
del_doc_by_ids方法是一个抽象方法,调用时需要注意在具体的子类中实现其功能。- 在使用
del_doc_by_ids方法之前,确保已经正确处理和筛选了需要删除的文档ID列表,避免误删除重要文档。 - 考虑到该方法可能会影响数据库或存储中的数据持久性,实现时应当谨慎处理异常和错误,确保数据的一致性和完整性。
FunctionDef update_doc_by_ids(self, docs)
update_doc_by_ids: 此函数的功能是根据文档ID更新或删除文档。
参数:
docs: 一个字典,键为文档ID,值为Document对象。
代码描述:
update_doc_by_ids 方法接收一个包含文档ID和对应Document对象的字典作为参数。此方法首先调用del_doc_by_ids方法,尝试删除所有传入的文档ID对应的文档。随后,方法初始化一个空列表用于存储有效的文档对象和对应的ID。接着,遍历传入的字典,检查每个Document对象的有效性:如果Document对象为None或其page_content属性为空(或仅包含空白字符),则该文档被视为无效,不会被添加到有效文档列表中。对于有效的文档,其ID和对象分别被添加到之前初始化的列表中。最后,调用do_add_doc方法,将有效的文档重新添加到知识库中。此过程实现了对指定ID的文档进行更新或删除的功能。
注意:
- 在调用此方法之前,确保传入的
docs参数格式正确,即键为文档ID,值为对应的Document对象。 - 此方法假设
del_doc_by_ids和do_add_doc方法已在子类中具体实现。因此,在使用update_doc_by_ids方法之前,需要确保这两个方法能够正常工作。 - 由于此方法内部调用了删除和添加文档的操作,可能会对知识库的数据产生重大影响。因此,在生产环境中使用时,应确保充分测试,并考虑实施适当的错误处理和日志记录机制,以便追踪操作结果。
输出示例:
调用update_doc_by_ids方法总是返回True,表示更新操作已被执行。然而,实际上是否成功更新或删除文档,需要依赖于del_doc_by_ids和do_add_doc方法的具体实现及其返回值。
FunctionDef list_docs(self, file_name, metadata)
list_docs: 此函数的功能是通过文件名或元数据检索文档。
参数:
file_name: 字符串类型,可选参数,默认为None,指定要查询的文件名称。metadata: 字典类型,可选参数,默认为空字典,用于根据文档的元数据进行过滤查询。
代码描述: list_docs 函数首先调用 list_docs_from_db 函数,根据提供的知识库名称、文件名和元数据参数从数据库中检索文档信息。检索到的文档信息是一个包含文档ID和元数据的字典列表。随后,函数遍历这个列表,对每个文档ID调用 get_doc_by_ids 方法获取具体的文档对象。如果文档对象非空,则创建一个 DocumentWithVSId 实例,并将其添加到结果列表中。这个过程允许函数根据文件名或元数据过滤条件,返回一组经过向量化处理的文档对象。
注意:
- 在调用此函数时,应确保提供的知识库名称是有效的,以便正确检索文档。
- 默认情况下,
metadata参数为空字典,如果需要根据特定元数据过滤文档,应显式传入相应的键值对。 - 函数处理空文档对象的情况,即如果
get_doc_by_ids方法返回空,则当前迭代会跳过,不会向结果列表中添加任何对象。
输出示例: 假设数据库中存在两条记录,其字段值分别为:
- id: "docA", metadata: {"author": "张三", "year": "2021"}
- id: "docB", metadata: {"author": "李四", "year": "2022"}
调用 list_docs(file_name="文件A.pdf") 可能返回以下列表:
[
DocumentWithVSId(id="docA", metadata={"author": "张三", "year": "2021"}, score=3.0),
DocumentWithVSId(id="docB", metadata={"author": "李四", "year": "2022"}, score=3.0)
]
此输出示例展示了函数如何根据指定的文件名返回该文件下所有文档的向量化处理对象列表。
FunctionDef do_create_kb(self)
do_create_kb: 此函数的功能是创建知识库的子类实现逻辑。
参数: 此函数没有参数。
代码描述: do_create_kb 函数是 KBService 类中的一个方法,设计用于被子类重写,以实现特定的知识库创建逻辑。在 KBService 类的上下文中,do_create_kb 方法提供了一个扩展点,允许开发者在不修改 create_kb 方法逻辑的情况下,添加或修改知识库创建时的行为。具体来说,当 create_kb 方法被调用时,它首先检查指定的文档路径是否存在,如果不存在则创建该路径。之后,create_kb 方法会调用 do_create_kb,这一步骤是预留给开发者的扩展点,允许在创建知识库的基础流程中插入自定义逻辑。完成这些步骤后,create_kb 方法会继续执行,将知识库信息添加到数据库中,并返回操作的状态。
在实际使用中,开发者应该通过继承 KBService 类并重写 do_create_kb 方法来实现特定的知识库创建逻辑。这种设计模式提高了代码的可扩展性和可维护性,允许不同的知识库实现具有不同的创建逻辑,而不必修改公共的 create_kb 方法。
注意: do_create_kb 方法默认不执行任何操作,因为它是设计给子类用于重写的。如果在不重写此方法的情况下直接使用,它将不会对知识库的创建过程产生任何影响。因此,开发者在使用 KBService 类时,需要根据具体需求重写 do_create_kb 方法,以实现所需的知识库创建逻辑。
FunctionDef list_kbs_type
list_kbs_type: 此函数的功能是列出所有知识库类型。
参数: 此函数不接受任何参数。
代码描述: list_kbs_type 函数的主要作用是从一个名为 kbs_config 的字典中获取所有的键,并将这些键作为一个列表返回。这里的 kbs_config 字典预期包含了不同知识库类型的配置信息,其中字典的键代表了各个知识库的类型。通过调用 keys() 方法,我们可以获取到一个包含所有键的视图,然后通过 list() 函数将这个视图转换成列表。这样,最终返回的就是一个包含所有知识库类型名称的列表。
注意: 使用此函数时,需要确保 kbs_config 字典已经被正确初始化并且包含了至少一个知识库类型的配置信息。如果 kbs_config 是空的,那么此函数将返回一个空列表。
输出示例:
假设 kbs_config 字典如下所示:
kbs_config = {
"type1": {...},
"type2": {...},
"type3": {...}
}
调用 list_kbs_type() 函数将返回:
["type1", "type2", "type3"]
这表示当前配置中存在三种类型的知识库。
FunctionDef list_kbs(cls)
list_kbs: 此函数的功能是从数据库中列出满足特定条件的知识库名称列表。
参数: 此函数不接受任何外部参数。
代码描述: list_kbs 函数是 KBService 类的一个方法,它通过调用 list_kbs_from_db 函数来实现其功能。list_kbs_from_db 函数负责从数据库中检索并返回满足特定条件(如文件数量大于某个最小值)的知识库名称列表。list_kbs 函数作为一个接口,简化了从数据库获取知识库名称列表的过程,使得其他函数或服务可以轻松地获取这些信息而无需直接与数据库交互。
注意:
list_kbs函数的实现依赖于list_kbs_from_db函数,因此在使用list_kbs函数之前,需要确保list_kbs_from_db函数已正确实现并能够成功从数据库中检索信息。- 此函数不接受任何参数,因此调用时不需要提供额外信息。它将返回数据库中所有符合条件的知识库名称列表,具体的筛选条件(如文件数量的最小值)是在
list_kbs_from_db函数内部定义的。
输出示例: 假设数据库中存在多个知识库,且根据 list_kbs_from_db 函数的筛选条件,有两个知识库满足条件。那么 list_kbs 函数的返回值可能如下:
['知识库A', '知识库B']
这表示在满足特定条件下,数据库中的知识库A和知识库B被成功检索并返回。
通过 list_kbs 函数,KBService 类为其他服务或函数提供了一个简洁的接口来获取数据库中的知识库名称列表,进一步促进了项目中不同组件之间的解耦和协作。
FunctionDef exists(self, kb_name)
exists: 此函数的功能是检查指定名称的知识库是否存在。
参数:
kb_name: 可选参数,字符串类型,表示要检查的知识库名称。如果未提供,则使用对象自身的kb_name属性。
代码描述:
exists函数用于判断给定名称的知识库是否存在于数据库中。函数首先检查是否提供了kb_name参数,如果没有提供,则使用对象自身的kb_name属性作为要检查的知识库名称。然后,函数调用kb_exists函数,传入知识库名称作为参数,kb_exists函数会查询数据库,检查是否存在具有该名称的知识库。如果存在,则kb_exists函数返回True,否则返回False。最终,exists函数返回kb_exists的返回值,即表示知识库是否存在的布尔值。
注意:
- 在调用
exists函数时,如果已知知识库名称,可以通过kb_name参数直接提供。如果不提供kb_name参数,则默认使用对象自身的kb_name属性。 - 确保在调用此函数之前,对象的
kb_name属性已正确设置,以避免查询错误的知识库名称。 - 此函数的返回值是布尔类型,可以直接用于条件判断,例如在决定是否创建新知识库或执行其他依赖于知识库存在性的操作时。
输出示例:
假设数据库中存在名为"技术文档库"的知识库,调用exists(kb_name="技术文档库")将返回True。如果查询一个不存在的知识库名称,如exists(kb_name="不存在的库"),则会返回False。
在项目中,exists函数被多个场景调用,包括在重建向量存储、生成知识库摘要向量存储、向知识库添加文档前的存在性检查等。这些调用场景表明,exists函数是知识库管理流程中的一个重要环节,用于确保操作的目标知识库确实存在,从而保证数据的一致性和操作的有效性。
FunctionDef vs_type(self)
vs_type: 此函数的功能是获取知识库的类型。
参数: 此函数没有参数。
代码描述: vs_type 函数设计用于返回一个字符串,该字符串代表知识库的类型。在当前的代码实现中,函数体是空的,这意味着需要由继承KBService类的子类来具体实现vs_type方法,以返回正确的知识库类型。在项目中,vs_type函数被create_kb和update_info两个方法调用。这两个方法分别用于创建和更新知识库,它们通过调用vs_type来获取知识库的类型,并将这个类型信息作为参数之一传递给add_kb_to_db函数,以便将知识库的相关信息添加到数据库中。这表明vs_type函数在知识库创建和更新流程中扮演着关键的角色,确保了知识库类型的信息能够正确地存储和管理。
注意: 虽然当前vs_type函数的实现为空,但在实际使用时,开发者需要在继承KBService类的子类中重写此方法,以返回具体的知识库类型。这是因为不同类型的知识库可能需要不同的处理逻辑和存储方式,因此正确地识别和返回知识库的类型对于知识库的管理至关重要。
FunctionDef do_init(self)
do_init: 此函数的功能是初始化知识库服务。
参数: 此函数没有参数。
代码描述: do_init 函数是 KBService 类的一个方法,目前其内部实现为空(即使用 pass 关键字),这意味着它是一个待实现的功能或者是一个占位符。在 KBService 类的构造函数 __init__ 中,do_init 被调用,这表明在创建 KBService 对象的过程中,do_init 函数被设计为完成知识库服务的初始化工作。具体来说,__init__ 函数首先设置了知识库的名称、知识库信息、嵌入模型、知识库路径和文档路径等属性,然后调用 do_init 来进行进一步的初始化操作。虽然当前 do_init 函数的实现为空,但它的存在暗示了在知识库服务初始化过程中可能需要执行的额外步骤或者特定的初始化逻辑,这些逻辑在未来可以在 do_init 函数中实现。
注意: 虽然当前 do_init 函数内部为空,但开发者在未来可能会在此函数中添加具体的初始化逻辑。因此,在修改或扩展 KBService 类的功能时,应当考虑到 do_init 函数的潜在作用和可能的实现内容。此外,调用 do_init 的方式表明它是类初始化过程的一部分,因此任何对 do_init 的修改都应当谨慎进行,以避免影响 KBService 类对象的正常创建和初始化。
FunctionDef do_drop_kb(self)
do_drop_kb: 此函数的功能是执行删除知识库的具体逻辑。
参数: 此函数不接受任何参数。
代码描述: do_drop_kb 函数是 KBService 类中定义的一个方法,用于实现删除知识库的具体逻辑。在该方法的当前实现中,它仅包含一个 pass 语句,这意味着它是一个空方法,需要由继承 KBService 类的子类来具体实现删除知识库的逻辑。此方法的设计初衷是允许不同的知识库子类根据自己的需求实现具体的删除逻辑,从而提供了一种灵活的方式来扩展知识库服务的功能。
在项目中,do_drop_kb 方法被 drop_kb 方法调用。drop_kb 方法的主要职责是删除知识库,它首先调用 do_drop_kb 方法来执行特定的删除逻辑,然后调用 delete_kb_from_db 函数来从数据库中删除知识库,最后返回操作的状态。这种设计模式允许在删除知识库的过程中插入额外的逻辑,而不仅仅是从数据库中删除记录,从而提供了更大的灵活性和可扩展性。
注意: 由于 do_drop_kb 方法在 KBService 类中默认不执行任何操作,因此在使用 KBService 类或其子类进行知识库删除操作时,需要确保根据具体需求重写 do_drop_kb 方法,以实现所需的删除逻辑。此外,开发者在扩展或继承 KBService 类时,应当注意保持 do_drop_kb 方法与知识库删除流程的一致性和完整性。
FunctionDef do_search(self, query, top_k, score_threshold)
do_search: 此函数的功能是执行知识库的搜索操作。
参数:
query: 字符串类型,表示搜索查询的内容。top_k: 整型,指定返回的最相关文档的最大数量。score_threshold: 浮点型,设定的分数阈值,只有得分高于此阈值的文档才会被返回。
代码描述:
do_search函数是KBService类的一个方法,旨在根据给定的查询参数,在知识库中搜索并返回最相关的文档。该方法接受三个参数:query为用户的查询字符串,top_k限定了返回结果的数量,而score_threshold则是过滤结果的得分阈值,只有当文档的相关性得分超过这个阈值时,该文档才会被考虑为搜索结果的一部分。函数返回一个列表,列表中的每个元素是一个元组,包含一个文档和该文档的得分。
在项目中,do_search方法被search_docs方法调用。search_docs方法同样位于KBService类中,它提供了一个更高层次的接口,用于执行搜索操作。search_docs方法通过调用do_search,利用其提供的底层搜索逻辑,然后返回搜索结果。这种设计允许do_search方法专注于执行搜索逻辑,而search_docs方法则处理与搜索相关的其他逻辑,如参数的默认值设置等。
注意:
do_search方法是一个抽象方法,意味着它需要在子类中被具体实现。在不同的知识库实现中,根据具体的搜索需求和知识库的结构,do_search方法的实现可能会有所不同。- 调用此方法时,需要确保传入的参数类型和值是正确的,特别是
top_k和score_threshold,这两个参数直接影响搜索结果的质量和数量。 - 由于
do_search方法返回的是包含文档和得分的元组列表,因此调用方需要根据自己的需求处理这些结果,例如展示给用户等。
FunctionDef do_add_doc(self, docs)
do_add_doc: 此函数的功能是向知识库添加文档。
参数:
docs: 需要添加到知识库中的文档列表,类型为List[Document]。**kwargs: 接受可变数量的关键字参数,用于扩展或自定义功能。
代码描述:
do_add_doc函数是KBService类的一个方法,设计用于将文档添加到知识库中。该方法接受一个文档列表docs作为参数,每个文档都是Document类型的实例,此外还可以接受多个关键字参数**kwargs,以提供更多的灵活性和扩展性。函数体内的具体实现逻辑需要由子类根据具体需求来完成,因为在基类中,此方法仅以pass占位,暗示这是一个待子类实现的抽象方法。
在项目中,do_add_doc方法被add_doc和update_doc_by_ids两个方法调用。add_doc方法用于向知识库添加文件,如果指定了docs参数,则直接调用do_add_doc方法添加这些文档,而不再进行文本向量化处理;update_doc_by_ids方法则是用于根据文档ID更新知识库中的文档,如果文档内容有效,则会调用do_add_doc方法重新添加这些文档。这两种调用方式都体现了do_add_doc方法在知识库文档管理中的核心作用,即作为一个接口,允许不同的上层逻辑向知识库中添加或更新文档。
注意:
- 由于
do_add_doc方法在基类中没有具体实现,因此在使用时需要确保其子类已经根据具体的业务逻辑重写了这个方法。 - 调用此方法时,需要确保传入的
docs参数是一个Document类型的实例列表,且每个实例都应该包含了要添加到知识库的文档信息。 - 通过
**kwargs参数,可以灵活地为方法传入额外的参数,但使用时应注意检查子类实现中对这些参数的处理逻辑,以避免出现意外的行为。
FunctionDef do_delete_doc(self, kb_file)
do_delete_doc: 此函数的功能是从知识库中删除指定的文档。
参数:
kb_file: 表示要删除的知识库文件的KnowledgeFile对象。
代码描述: do_delete_doc函数是KBService类中用于删除知识库中文档的方法。它接收一个KnowledgeFile类型的参数kb_file,该参数封装了需要删除的文件的相关信息。此函数的实现需要子类根据具体逻辑进行重写。在当前的实现中,函数体内部仅包含一个pass语句,意味着默认情况下此函数不执行任何操作。实际的删除逻辑应由继承KBService类的子类根据具体需求实现。
注意:
- 在使用
do_delete_doc函数时,需要确保传入的kb_file参数正确实例化,且其代表的文件确实存在于知识库中。否则,可能无法正确执行删除操作。 - 由于
do_delete_doc函数默认不执行任何操作,开发者需要在子类中重写此方法,添加具体的删除逻辑。 - 此函数通常与
delete_doc方法配合使用。delete_doc方法调用do_delete_doc进行文件的删除操作,并根据参数决定是否从磁盘和数据库中删除文件内容。这意味着do_delete_doc负责执行删除操作的自定义部分,而delete_doc则处理更广泛的删除流程,包括可选的从磁盘删除文件和更新数据库状态。
FunctionDef do_clear_vs(self)
do_clear_vs: 此函数的功能是从知识库删除全部向量子类实自己逻辑。
参数: 此函数不接受任何参数。
代码描述: do_clear_vs 函数是 KBService 类中的一个方法,其主要作用是在知识库服务中执行删除所有向量数据的前置逻辑。具体来说,该函数被设计为在删除向量库中所有内容之前,执行必要的清理或准备工作。然而,根据提供的代码片段,do_clear_vs 方法的实现目前为空(使用了 pass 语句),这意味着它没有执行任何操作。这可能表明该方法是为了未来可能的扩展而保留的,或者是等待进一步的实现。
在项目中,do_clear_vs 方法被 clear_vs 方法调用。clear_vs 方法的文档说明了其功能是“删除向量库中所有内容”。在执行具体的删除操作之前,clear_vs 首先调用 do_clear_vs 方法。这表明 do_clear_vs 方法的设计初衷是作为执行实际删除操作前的一个预处理步骤。在 do_clear_vs 方法调用之后,clear_vs 方法继续调用 delete_files_from_db 函数,传入知识库名称作为参数,来完成向量库中所有内容的删除操作,并返回操作的状态。
注意: 虽然当前 do_clear_vs 方法的实现为空,但在未来的开发中,如果需要在删除向量数据之前执行特定的逻辑(如日志记录、数据备份、权限检查等),可以在此方法中添加相应的代码。因此,开发者在使用或修改此方法时,应考虑到其在整个删除流程中的定位和作用,避免破坏已有的调用关系和逻辑顺序。
ClassDef KBServiceFactory
KBServiceFactory: KBServiceFactory 类的功能是提供一个静态方法工厂,用于根据不同的参数创建并返回不同类型的知识库服务实例。
属性:该类没有定义属性,所有功能都通过静态方法实现。
代码描述: KBServiceFactory 类提供了三个静态方法,分别用于根据不同的条件获取知识库服务实例。
-
get_service方法接受知识库名称(kb_name)、向量存储类型(vector_store_type)、嵌入模型名称(embed_model)作为参数。该方法首先会检查向量存储类型是否为字符串,如果是,则将其转换为SupportedVSType枚举类型。根据向量存储类型的不同,方法会动态导入并返回对应的知识库服务实例,如 FaissKBService、PGKBService、MilvusKBService 等。这些服务实例都继承自 KBService 基类,但具体实现根据向量存储的不同而有所差异。 -
get_service_by_name方法接受知识库名称(kb_name)作为参数,通过调用数据库加载函数load_kb_from_db来获取知识库的向量存储类型和嵌入模型名称,然后调用get_service方法来获取对应的知识库服务实例。如果数据库中不存在该知识库,则返回 None。 -
get_default方法不接受任何参数,直接返回一个默认向量存储类型为SupportedVSType.DEFAULT的知识库服务实例。
在项目中,KBServiceFactory 被多个模块调用,用于创建、删除、更新、搜索知识库中的文档,以及上传和下载文档等操作。例如,在 knowledge_base_chat.py 中,通过 KBServiceFactory 获取知识库服务实例来搜索知识库中的文档;在 kb_api.py 中,通过 KBServiceFactory 创建新的知识库或删除现有知识库。
注意:
- 在使用
get_service方法时,需要确保传入的向量存储类型是支持的类型之一,否则可能会抛出异常。 get_service_by_name方法依赖于数据库中的知识库配置信息,如果数据库中不存在指定的知识库名称,将返回 None。- 默认情况下,
get_default方法返回的知识库服务实例使用的向量存储类型为SupportedVSType.DEFAULT,具体实现可能会根据项目需求进行调整。
输出示例: 由于 KBServiceFactory 类主要提供静态方法来获取知识库服务实例,而不直接产生输出,因此没有具体的输出示例。返回的知识库服务实例根据不同的向量存储类型,将具有不同的方法和属性,用于执行知识库的相关操作。
FunctionDef get_service(kb_name, vector_store_type, embed_model)
get_service: get_service 函数用于根据知识库名称、向量存储类型和嵌入模型名称动态获取对应的知识库服务实例。
参数:
kb_name: 知识库名称,类型为str。vector_store_type: 向量存储类型,可以是str类型的向量存储类型名称或SupportedVSType枚举类型。embed_model: 嵌入模型名称,默认值为EMBEDDING_MODEL,类型为str。
代码描述:
此函数首先判断 vector_store_type 参数的类型,如果是字符串,则将其转换为 SupportedVSType 枚举类型。接着,根据向量存储类型的不同,动态导入并返回对应的知识库服务类的实例。支持的向量存储类型包括 FAISS、Milvus、Zilliz、PostgreSQL、Elasticsearch、ChromaDB 等,以及一个默认的向量存储类型。如果指定的向量存储类型为默认类型,则会根据 model_config.kbs_config 中的配置返回 MilvusKBService 实例。每种向量存储类型对应的知识库服务类都继承自 KBService 基类,并实现了相应的方法以支持知识库的操作。
注意:
- 在使用
get_service函数时,需要确保传入的向量存储类型名称与SupportedVSType中定义的类型名称一致,否则可能会引发错误。 - 如果项目中新增了向量存储类型,需要在
SupportedVSType枚举类中添加相应的类型,并在get_service函数中添加相应的逻辑以支持新的向量存储类型。 - 在调用此函数获取知识库服务实例后,可以使用该实例执行创建知识库、添加文档、搜索文档等操作。
输出示例:
由于 get_service 函数返回的是知识库服务实例,而不是具体的数据,因此没有直接的输出示例。返回的实例类型取决于传入的向量存储类型参数。例如,如果传入的向量存储类型为 FAISS,则函数将返回一个 FaissKBService 类的实例。
FunctionDef get_service_by_name(kb_name)
get_service_by_name: 此函数的功能是根据知识库名称获取对应的知识库服务实例。
参数:
kb_name: 知识库的名称,类型为字符串。
代码描述: get_service_by_name 函数首先调用 load_kb_from_db 函数,根据传入的知识库名称 kb_name 从数据库中加载知识库的信息,包括知识库的名称、向量库类型和嵌入模型名称。如果数据库中不存在指定名称的知识库,load_kb_from_db 将返回三个 None 值,此时 get_service_by_name 函数也将返回 None。如果成功从数据库中加载到知识库信息,get_service_by_name 函数将使用加载到的知识库名称、向量库类型和嵌入模型名称作为参数,调用 KBServiceFactory.get_service 方法,动态获取并返回对应的知识库服务实例。
注意:
- 在调用此函数之前,确保传入的知识库名称在数据库中存在,否则函数将返回
None。 - 此函数依赖于
load_kb_from_db函数从数据库中加载知识库信息,因此需要确保数据库连接正常且知识库信息已正确录入数据库。 - 返回的知识库服务实例类型取决于知识库的向量库类型,例如,如果向量库类型为
FAISS,则返回的实例将是FaissKBService类的实例。
输出示例:
假设数据库中存在一个名为 "技术文档库" 的知识库,其向量库类型为 "FAISS",嵌入模型名称为 "BERT",调用 get_service_by_name("技术文档库") 将返回一个 FaissKBService 类的实例,该实例用于管理和操作名为 "技术文档库" 的知识库。如果数据库中不存在名为 "不存在的库" 的知识库,调用 get_service_by_name("不存在的库") 将返回 None。
FunctionDef get_default
get_default: get_default 函数的功能是获取默认的知识库服务实例。
参数: 此函数不接受任何参数。
代码描述: get_default 函数通过调用 KBServiceFactory.get_service 方法,传入 "default" 作为知识库名称和 SupportedVSType.DEFAULT 作为向量存储类型,来获取默认的知识库服务实例。在这个过程中,SupportedVSType.DEFAULT 指代默认的向量存储服务类型,其具体实现可能会根据项目配置或环境而变化。根据 KBServiceFactory.get_service 的实现逻辑,如果向量存储类型为 SupportedVSType.DEFAULT,则会返回一个 MilvusKBService 实例,除非项目配置指定了不同的默认服务。这意味着,如果没有特别指定,默认的知识库服务将使用 Milvus 作为向量存储后端。
注意:
- 使用
get_default函数时,不需要传递任何参数,这使得它非常适合于需要快速获取默认知识库服务实例的场景。 - 返回的知识库服务实例类型可能会根据项目的配置或环境设置而有所不同。默认情况下,它返回的是
MilvusKBService实例,但这一行为是可配置的。 - 在实际应用中,应确保项目配置正确,以便
get_default能够返回预期的知识库服务实例。
输出示例: 由于 get_default 函数的返回值取决于项目配置,因此没有固定的输出示例。但在大多数情况下,如果项目使用 Milvus 作为默认的向量存储服务,那么该函数可能返回类似于以下的实例表示:
<MilvusKBService object at 0x7f8b2d4c1e50>
这表示 get_default 成功返回了一个 MilvusKBService 的实例,可以用于执行知识库相关的操作,如创建知识库、添加文档、搜索文档等。
FunctionDef get_kb_details
get_kb_details: 此函数的功能是获取所有知识库的详细信息列表。
参数: 此函数不接受任何参数。
代码描述: get_kb_details 函数首先调用 list_kbs_from_folder 函数来获取文件夹中的知识库列表,然后调用 KBService.list_kbs 方法获取数据库中的知识库列表。对于文件夹中的每个知识库,函数初始化一个包含基本信息的字典,并将其添加到结果字典中。接下来,对于数据库中的每个知识库,函数通过调用 get_kb_detail 函数获取其详细信息,并更新结果字典中相应知识库的信息。如果数据库中的知识库在结果字典中不存在,则将其添加到结果字典中,并标记为不在文件夹中。最后,函数将结果字典中的值转换为列表,并为每个知识库分配一个序号,然后返回这个列表。
注意:
- 确保
list_kbs_from_folder和KBService.list_kbs方法能够正确执行,且数据库连接正常,以便能够获取完整的知识库列表。 get_kb_detail函数需要能够正确返回知识库的详细信息,包括知识库名称、简介、向量库类型、嵌入模型名称、文件数量和创建时间等。
输出示例: 假设文件夹和数据库中各有两个知识库,函数可能返回如下列表:
[
{
"No": 1,
"kb_name": "知识库1",
"vs_type": "ElasticSearch",
"kb_info": "知识库1的简介",
"embed_model": "BERT",
"file_count": 100,
"create_time": "2023-04-01T12:00:00",
"in_folder": True,
"in_db": True
},
{
"No": 2,
"kb_name": "知识库2",
"vs_type": "Faiss",
"kb_info": "知识库2的简介",
"embed_model": "RoBERTa",
"file_count": 50,
"create_time": "2023-04-02T12:00:00",
"in_folder": False,
"in_db": True
}
]
这个列表包含了两个知识库的详细信息,每个知识库都有一个序号、名称、向量库类型、简介、嵌入模型名称、文件数量、创建时间以及它们是否存在于文件夹和数据库中的标记。
FunctionDef get_kb_file_details(kb_name)
get_kb_file_details: 此函数用于获取指定知识库中的文件详细信息列表。
参数:
kb_name: 字符串类型,指定要查询的知识库名称。
代码描述: get_kb_file_details 函数首先通过 KBServiceFactory.get_service_by_name 方法根据知识库名称获取对应的知识库服务实例。如果该实例不存在,则直接返回空列表。接着,函数调用 list_files_from_folder 函数列出知识库文件夹中的所有文件,并通过知识库服务实例的 list_files 方法获取数据库中记录的所有文件名。然后,函数遍历文件夹中的文件,为每个文件构建一个包含文件基本信息的字典,并将其添加到结果字典中。对于数据库中存在的文件,函数通过调用 get_file_detail 函数获取其详细信息,并更新到结果字典中。最后,函数将结果字典中的值转换为列表,并为每个元素添加一个序号字段,然后返回这个列表。
注意:
- 确保传入的
kb_name在系统中是存在的,否则函数将返回空列表。 - 此函数整合了文件夹和数据库中的文件信息,如果文件同时存在于文件夹和数据库中,数据库中的文件信息将覆盖文件夹中的同名文件信息。
- 返回的列表中的每个字典都包含了文件的多个属性,如文件名、扩展名、版本等,这些信息有助于进一步处理和管理知识库中的文件。
输出示例:
[
{
"No": 1,
"kb_name": "技术文档库",
"file_name": "document1.pdf",
"file_ext": ".pdf",
"file_version": 0,
"document_loader": "",
"docs_count": 0,
"text_splitter": "",
"create_time": null,
"in_folder": true,
"in_db": false
},
{
"No": 2,
"kb_name": "技术文档库",
"file_name": "report2.docx",
"file_ext": ".docx",
"file_version": 1,
"document_loader": "WordLoader",
"docs_count": 10,
"text_splitter": "SpacyTextSplitter",
"create_time": "2023-04-01 12:00:00",
"in_folder": false,
"in_db": true
}
]
此示例展示了当查询到文件时,get_kb_file_details 函数返回的信息列表。列表中的每个元素都是一个字典,包含了文件所属的知识库名称、文件名、文件扩展名、文件版本、文档加载器名称、文本分割器名称、文件的创建时间、是否存在于文件夹中、是否存在于数据库中等信息。
ClassDef EmbeddingsFunAdapter
EmbeddingsFunAdapter: EmbeddingsFunAdapter类的功能是对文本进行嵌入表示的转换,支持同步和异步两种方式。
属性:
embed_model: 嵌入模型的名称,用于指定使用哪个预训练模型进行文本嵌入。
代码描述: EmbeddingsFunAdapter类继承自Embeddings类,主要提供了文本嵌入表示的功能。它包含以下几个关键方法:
__init__: 构造函数,接收一个嵌入模型名称作为参数,默认使用预定义的EMBEDDING_MODEL。embed_documents: 接收一个文本列表,返回这些文本的嵌入表示。该方法首先使用指定的嵌入模型将文本转换为嵌入向量,然后对这些向量进行归一化处理。embed_query: 接收单个文本字符串,返回该文本的嵌入表示。与embed_documents方法类似,但是专门针对单个查询文本进行处理,并将结果转换为一维数组返回。aembed_documents: 异步版本的embed_documents方法,功能相同但适用于异步调用场景。aembed_query: 异步版本的embed_query方法,功能相同但适用于异步调用场景。
在项目中,EmbeddingsFunAdapter类被多个模块调用,用于处理不同场景下的文本嵌入需求。例如,在知识库聊天迭代器、知识库缓存加载、以及各种知识库服务中,都可以看到EmbeddingsFunAdapter的身影。这些调用场景表明,EmbeddingsFunAdapter是处理文本嵌入表示的核心组件,支持多种知识库服务的文本相似度查询功能。
注意:
- 在使用EmbeddingsFunAdapter进行文本嵌入转换时,需要确保传入的嵌入模型名称是有效且已经预训练好的。
- 异步方法
aembed_documents和aembed_query需要在异步环境下调用,以避免阻塞主线程。
输出示例:
# 使用embed_query方法的输出示例
embeddings = embed_func.embed_query("这是一个示例文本")
# 输出: [0.01, -0.02, 0.03, ..., 0.05] # 假设的嵌入向量列表
# 使用aembed_documents方法的输出示例
embeddings = await embed_func.aembed_documents(["文本1", "文本2"])
# 输出: [[0.01, -0.02, 0.03, ..., 0.05], [0.02, -0.03, 0.04, ..., 0.06]] # 假设的嵌入向量列表
在实际应用中,嵌入向量的维度和具体数值将取决于所使用的嵌入模型。
FunctionDef init(self, embed_model)
init: 该函数用于初始化EmbeddingsFunAdapter类的实例。
参数:
- embed_model: 字符串类型,默认值为EMBEDDING_MODEL。该参数用于指定嵌入模型。
代码描述:
__init__方法是EmbeddingsFunAdapter类的构造函数,负责初始化类的实例。在这个方法中,接收一个名为embed_model的参数,该参数用于指定将要使用的嵌入模型。如果调用时没有指定embed_model参数,则会使用EMBEDDING_MODEL作为默认值。这里的EMBEDDING_MODEL是在类外部定义的一个常量,代表默认的嵌入模型名称。
在方法体内,将传入的embed_model参数值赋给实例变量self.embed_model。这样,每个EmbeddingsFunAdapter类的实例都会拥有一个embed_model实例变量,用于存储该实例所使用的嵌入模型名称。
注意:
- 在使用
EmbeddingsFunAdapter类创建实例时,可以根据需要传入不同的embed_model参数值,以指定不同的嵌入模型。如果不指定,将使用默认的嵌入模型。 - 确保传入的
embed_model参数值是有效的,且对应的嵌入模型已经正确安装和配置,以避免在后续使用过程中出现错误。
FunctionDef embed_documents(self, texts)
embed_documents: 该函数的功能是将文本列表转换为归一化的嵌入向量列表。
参数:
texts: 需要转换为嵌入向量的文本字符串列表。
代码描述:
embed_documents函数首先调用embed_texts函数,将文本列表texts和嵌入模型self.embed_model作为参数传递,以获取文本的嵌入向量。embed_texts函数负责将文本向量化,可以处理本地或在线的嵌入模型,并返回一个包含向量化结果的BaseResponse对象。接着,embed_documents函数使用normalize函数对嵌入向量进行L2范数归一化处理,以确保所有向量都规范化到单位球上。这一步骤对于后续的向量空间模型处理非常重要,有助于提高模型的效果和稳定性。最后,函数将归一化的嵌入向量转换为列表格式并返回。
在整个过程中,embed_documents函数依赖于embed_texts函数进行文本的向量化处理,并依赖于normalize函数进行向量的归一化处理,这两个函数是实现文本嵌入和归一化的关键步骤。
注意:
- 确保传入的
texts参数是有效的文本列表,且self.embed_model已正确指定,以便函数能够找到并使用正确的嵌入模型进行文本向量化处理。 - 归一化步骤是必要的,它确保了嵌入向量的质量,对于后续的处理非常重要。
输出示例:
假设调用embed_documents函数,传入文本列表["你好", "世界"],可能会返回如下归一化的嵌入向量列表:
[[0.1, 0.2, 0.3], [0.4, 0.5, 0.6]]
这表示两个文本"你好"和"世界"被成功转换为嵌入向量,并且这些向量已经过归一化处理。
FunctionDef embed_query(self, text)
embed_query: 该函数的功能是对输入的文本进行向量化处理,并返回归一化后的向量列表。
参数:
text: 需要进行向量化处理的文本,数据类型为字符串。
代码描述:
embed_query函数首先调用embed_texts函数,将输入的文本text转换为向量化表示。在这个过程中,embed_texts函数接收一个文本列表(本例中为单个文本构成的列表)、嵌入模型名称以及一个标志位to_query,后者指示该文本是作为查询使用。得到的向量化结果是一个包含单个向量的列表,该向量代表输入文本的嵌入表示。
接下来,函数将这个向量转换为二维数组,以满足后续处理的需求。这是通过np.reshape实现的,其中query_embed是原始的一维向量,query_embed_2d是转换后的二维数组。
然后,使用normalize函数对二维数组进行L2范数归一化处理。归一化是向量空间模型中的一个常见预处理步骤,有助于提高模型的效果和稳定性。归一化后的结果是一个二维数组,其中包含了归一化后的嵌入向量。
最后,函数将归一化后的二维数组转换回一维数组,并将其转换为列表格式返回。这样,返回的结果便是输入文本的归一化嵌入表示,可以直接用于后续的查询或其他处理。
注意:
- 输入文本
text应为有效的字符串,不应为空或非文本类型。 - 该函数依赖于
embed_texts和normalize两个函数,因此在使用前需要确保这些依赖函数正确实现且可用。 - 归一化处理依赖于
numpy库,使用前需确保已安装numpy。
输出示例:
假设输入文本为"你好世界",且嵌入模型将该文本向量化为[0.1, 0.2, 0.3],则归一化后的输出可能如下所示:
[0.26726124, 0.53452248, 0.80178373]
这表示输入文本"你好世界"的归一化嵌入向量为上述列表。
FunctionDef aembed_documents(self, texts)
aembed_documents: 此函数的功能是异步地将一系列文本向量化,并返回归一化后的向量列表。
参数:
texts: 需要进行向量化处理的文本列表,类型为List[str]。
代码描述:
aembed_documents函数是EmbeddingsFunAdapter类的一个方法,它接受一个文本列表作为输入,使用aembed_texts函数异步地将这些文本转换为嵌入向量。这一过程涉及到调用aembed_texts函数,该函数根据指定的嵌入模型(embed_model)对文本进行向量化处理,并返回一个包含向量化结果的BaseResponse对象。在获得向量化结果后,aembed_documents方法进一步调用normalize函数对嵌入向量进行L2范数归一化处理,以确保向量在同一规范化空间内,这对于后续的向量相似度计算等操作是非常重要的。最后,该方法将归一化后的嵌入向量转换为列表格式并返回。
从功能角度看,aembed_documents方法与其调用的aembed_texts函数和normalize函数共同构成了文本向量化和归一化处理的完整流程。其中,aembed_texts负责文本的异步向量化处理,而normalize负责对向量化结果进行归一化,以优化向量的表示和后续使用。
注意:
- 在调用此方法时,需要确保传入的
texts参数是有效的文本列表。 - 该方法的执行效率和效果依赖于
embed_model的选择和配置,以及aembed_texts函数和normalize函数的实现。 - 由于该方法涉及到异步调用,因此在使用时需要配合
await关键字或在异步环境中调用。
输出示例:
假设调用await aembed_documents(texts=["你好", "世界"]),可能会返回如下归一化后的向量列表:
[[0.4472136, 0.89442719], [0.5547002, 0.83205029]]
这表示两个文本"你好"和"世界"被成功向量化并归一化,向量化结果分别为[0.4472136, 0.89442719]和[0.5547002, 0.83205029]。
FunctionDef aembed_query(self, text)
aembed_query: 此函数的功能是对给定文本进行异步向量化处理,并返回归一化后的向量列表。
参数:
text: 需要进行向量化处理的文本,类型为str。
代码描述:
aembed_query函数首先调用aembed_texts函数,对输入的文本text进行异步向量化处理。该过程涉及将文本封装成列表,并指定使用的嵌入模型embed_model以及将to_query参数设置为True,以优化向量化结果的使用场景。向量化处理后,返回的结果是一个包含向量化结果的BaseResponse对象。
接下来,函数从BaseResponse对象中提取出第一个(也是唯一一个,因为输入文本为单个字符串)向量化结果,并将其从一维数组转换为二维数组。这一步骤是为了满足后续归一化处理的需求。
随后,函数调用normalize函数对二维数组进行L2范数归一化处理。归一化是向量空间模型中的一个常见预处理步骤,有助于提高后续处理的效果和稳定性。归一化处理后,函数将归一化后的二维数组转换回一维数组,并将其作为最终结果返回。
注意:
- 在调用此函数时,需要确保传入的
text参数是有效的文本字符串。 - 函数的执行结果依赖于
embed_model指定的嵌入模型的有效性和可用性,因此在使用前应确认模型配置正确且模型可用。 - 归一化处理是基于
numpy库实现的,因此在使用此函数前需要确保已经安装了numpy库。
输出示例:
假设调用await aembed_query(text="你好"),可能会返回如下归一化后的向量列表:
[0.1, 0.2, 0.3, 0.4]
这表示文本"你好"被成功向量化并归一化,向量化结果为一个一维数组。
在项目中,aembed_query函数被用于处理需要异步进行文本向量化的场景,如在聊天文件中对用户查询进行异步向量化以支持快速的文本查询和相似度计算。此外,它也支持通过在线API进行文本向量化,为项目提供了灵活的向量化解决方案。
FunctionDef score_threshold_process(score_threshold, k, docs)
score_threshold_process: 此函数的功能是根据给定的分数阈值和文档相似度,筛选出符合条件的文档,并返回前k个文档。
参数:
- score_threshold: 分数阈值,用于筛选相似度高于此阈值的文档。
- k: 返回的文档数量上限。
- docs: 包含文档及其相似度分数的列表。
代码描述:
score_threshold_process 函数接收三个参数:score_threshold(分数阈值),k(返回的文档数量上限),以及docs(包含文档及其相似度分数的列表)。如果score_threshold不为None,则函数会使用operator.le(小于等于比较操作符)来筛选出相似度分数小于等于score_threshold的文档。之后,函数返回筛选后的文档列表中的前k个文档。
在项目中,score_threshold_process函数被多个知识库服务(如MilvusKBService、PGKBService和ZillizKBService)中的do_search方法调用。这些服务通过不同的后端(如Milvus、PostgreSQL、Zilliz等)执行相似度搜索,并使用score_threshold_process函数来根据分数阈值筛选和限制返回的结果数量。这样,无论底层使用哪种搜索技术,都能通过统一的方式控制搜索结果的质量和数量。
注意:
- 如果
score_threshold为None,则不会进行分数阈值筛选,直接返回前k个文档。 - 函数的返回值依赖于输入的
docs列表和k值,因此在调用此函数前,确保docs列表已按相似度分数排序。
输出示例: 假设有以下输入:
- score_threshold = 0.5
- k = 3
- docs = [("doc1", 0.6), ("doc2", 0.4), ("doc3", 0.7), ("doc4", 0.5)]
调用score_threshold_process(score_threshold, k, docs)后,返回值可能为:
- [("doc1", 0.6), ("doc3", 0.7), ("doc4", 0.5)]
这表示在给定的文档中,有三个文档的相似度分数满足小于等于分数阈值的条件,并且根据要求返回了前3个文档。