Langchain-Chatchat/server/knowledge_base/kb_service/es_kb_service.py

from typing import List
import os
import shutil
from langchain.embeddings.base import Embeddings
from langchain.schema import Document
from langchain.vectorstores.elasticsearch import ElasticsearchStore
from configs import KB_ROOT_PATH, EMBEDDING_MODEL, EMBEDDING_DEVICE, CACHED_VS_NUM
from server.knowledge_base.kb_service.base import KBService, SupportedVSType
from server.knowledge_base.utils import KnowledgeFile
from server.utils import load_local_embeddings
from elasticsearch import Elasticsearch,BadRequestError
from configs import logger
from configs import kbs_config

class ESKBService(KBService):

    def do_init(self):
        self.kb_path = self.get_kb_path(self.kb_name)
        self.index_name = os.path.split(self.kb_path)[-1]
        self.IP = kbs_config[self.vs_type()]['host']
        self.PORT = kbs_config[self.vs_type()]['port']
        self.user = kbs_config[self.vs_type()].get("user",'')
        self.password = kbs_config[self.vs_type()].get("password",'')
        self.dims_length = kbs_config[self.vs_type()].get("dims_length",None)
        self.embeddings_model = load_local_embeddings(self.embed_model, EMBEDDING_DEVICE)
        try:
            # ES python客户端连接（仅连接）
            if self.user != "" and self.password != "":
                self.es_client_python =  Elasticsearch(f"http://{self.IP}:{self.PORT}",
                basic_auth=(self.user,self.password))
            else:
                logger.warning("ES未配置用户名和密码")
                self.es_client_python = Elasticsearch(f"http://{self.IP}:{self.PORT}")
        except ConnectionError:
            logger.error("连接到 Elasticsearch 失败！")
            raise ConnectionError
        except Exception as e:
            logger.error(f"Error 发生 : {e}")
            raise e
        try:
            # 首先尝试通过es_client_python创建
            mappings = {
                "properties": {
                    "dense_vector": {
                        "type": "dense_vector",
                        "dims": self.dims_length,
                        "index": True
                    }
                }
            }
            self.es_client_python.indices.create(index=self.index_name, mappings=mappings)
        except BadRequestError as e:
            logger.error("创建索引失败,重新" + e)

        try:
            # langchain ES 连接、创建索引
            if self.user != "" and self.password != "":
                self.db_init = ElasticsearchStore(
                es_url=f"http://{self.IP}:{self.PORT}",
                index_name=self.index_name,
                query_field="context",
                vector_query_field="dense_vector",
                embedding=self.embeddings_model,
                es_user=self.user,
                es_password=self.password
            )
            else:
                logger.warning("ES未配置用户名和密码")
                self.db_init = ElasticsearchStore(
                    es_url=f"http://{self.IP}:{self.PORT}",
                    index_name=self.index_name,
                    query_field="context",
                    vector_query_field="dense_vector",
                    embedding=self.embeddings_model,
                )
        except ConnectionError:
            print("### 初始化 Elasticsearch 失败！")
            logger.error("### 初始化 Elasticsearch 失败！")
            raise ConnectionError
        except Exception as e:
            logger.error(f"Error 发生 : {e}")
            raise e
        try:
            # 尝试通过db_init创建索引
            self.db_init._create_index_if_not_exists(
                                                     index_name=self.index_name,
                                                     dims_length=self.dims_length
                                                     )
        except Exception as e:
            logger.error("创建索引失败...")
            logger.error(e)
            # raise e


    @staticmethod
    def get_kb_path(knowledge_base_name: str):
        return os.path.join(KB_ROOT_PATH, knowledge_base_name)

    @staticmethod
    def get_vs_path(knowledge_base_name: str):
        return os.path.join(ESKBService.get_kb_path(knowledge_base_name), "vector_store")

    def do_create_kb(self):
        if os.path.exists(self.doc_path):
            if not os.path.exists(os.path.join(self.kb_path, "vector_store")):
                os.makedirs(os.path.join(self.kb_path, "vector_store"))
            else:
                logger.warning("directory `vector_store` already exists.")

    def vs_type(self) -> str:
        return SupportedVSType.ES

    def _load_es(self, docs, embed_model):
        # 将docs写入到ES中
        try:
            # 连接 + 同时写入文档
            if self.user != "" and self.password != "":
                self.db = ElasticsearchStore.from_documents(
                        documents=docs,
                        embedding=embed_model,
                        es_url= f"http://{self.IP}:{self.PORT}",
                        index_name=self.index_name,
                        distance_strategy="COSINE",
                        query_field="context",
                        vector_query_field="dense_vector",
                        verify_certs=False,
                        es_user=self.user,
                        es_password=self.password
                    )
            else:
                self.db = ElasticsearchStore.from_documents(
                        documents=docs,
                        embedding=embed_model,
                        es_url= f"http://{self.IP}:{self.PORT}",
                        index_name=self.index_name,
                        distance_strategy="COSINE",
                        query_field="context",
                        vector_query_field="dense_vector",
                        verify_certs=False)
        except ConnectionError as ce:
            print(ce)
            print("连接到 Elasticsearch 失败！")
            logger.error("连接到 Elasticsearch 失败！")
        except Exception as e:
            logger.error(f"Error 发生 : {e}")
            print(e)


    def do_search(self, query:str, top_k: int, score_threshold: float):
        # 文本相似性检索
        print(f"do_search,top_k:{top_k},score_threshold:{score_threshold}")
        docs = self.db_init.similarity_search_with_score(query=query,
                                         k=top_k)
        return docs

    def searchbyContent(self, query:str, top_k: int = 2):
        if self.es_client_python.indices.exists(index=self.index_name):
            print(f"******ESKBService searchByContent {self.index_name}")
            tem_query = {
                "query": {"match": {
                        "context": "*" + query + "*"
                    }}
                }
            search_results = self.es_client_python.search(index=self.index_name, body=tem_query, size=top_k)
            hits = [hit for hit in search_results["hits"]["hits"]]
            docs_and_scores = [
                (
                    Document(
                        page_content=hit["_source"]["context"],
                        metadata=hit["_source"]["metadata"],
                    )
                )
                for hit in hits
            ]

            return docs_and_scores
        
    def del_doc_by_ids(self, ids: List[str]) -> bool:
        for doc_id in ids:
            try:
                self.es_client_python.delete(index=self.index_name,
                                            id=doc_id,
                                            refresh=True)
            except Exception as e:
                logger.error(f"ES Docs Delete Error! {e}")

    def do_delete_doc(self, kb_file, **kwargs):
        base_file_name = os.path.basename(kb_file.filepath)
        if self.es_client_python.indices.exists(index=self.index_name):
            # 从向量数据库中删除索引(文档名称是Keyword)
            query = {
                "query": {
                    "term": {
                        "metadata.source.keyword": base_file_name
                    }
                }
            }
            print(f"***do_delete_doc: kb_file.filepath:{kb_file.filepath}, base_file_name:{base_file_name}")
            # 注意设置size，默认返回10个。
            search_results = self.es_client_python.search(body=query, size=50)
            delete_list = [hit["_id"] for hit in search_results['hits']['hits']]
            if len(delete_list) == 0:
                return None
            else:
                for doc_id in delete_list:
                    try:
                        self.es_client_python.delete(index=self.index_name,
                                                     id=doc_id,
                                                     refresh=True)
                    except Exception as e:
                        logger.error(f"ES Docs Delete Error! {e}")

            # self.db_init.delete(ids=delete_list)
            #self.es_client_python.indices.refresh(index=self.index_name)


    def do_add_doc(self, docs: List[Document], **kwargs):
        '''向知识库添加文件'''
        print(f"server.knowledge_base.kb_service.es_kb_service.do_add_doc 输入的docs参数长度为:{len(docs)}")
        print("*"*100)
        self._load_es(docs=docs, embed_model=self.embeddings_model)
        # 获取 id 和 source , 格式：[{"id": str, "metadata": dict}, ...]
        print("写入数据成功.")
        print("*"*100)
        
        if self.es_client_python.indices.exists(index=self.index_name):
            file_path = docs[0].metadata.get("source")
            query = {
                "query": {
                    "term": {
                        "metadata.source.keyword": file_path
                    }
                }
            }
            search_results = self.es_client_python.search(body=query)
            if len(search_results["hits"]["hits"]) == 0:
                raise ValueError("召回元素个数为0")
        info_docs = [{"id":hit["_id"], "metadata": hit["_source"]["metadata"]} for hit in search_results["hits"]["hits"]]
        return info_docs


    def do_clear_vs(self):
        """从知识库删除全部向量"""
        if self.es_client_python.indices.exists(index=self.kb_name):
            self.es_client_python.indices.delete(index=self.kb_name)


    def do_drop_kb(self):
        """删除知识库"""
        # self.kb_file: 知识库路径
        if os.path.exists(self.kb_path):
            shutil.rmtree(self.kb_path)


if __name__ == '__main__':
    esKBService = ESKBService("test")
    #esKBService.clear_vs()
    #esKBService.create_kb()
    esKBService.add_doc(KnowledgeFile(filename="README.md", knowledge_base_name="test"))
    print(esKBService.search_docs("如何启动api服务"))
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								from typing import List
 								import os
 								import shutil
 								from langchain.embeddings.base import Embeddings
 								from langchain.schema import Document
 								from langchain.vectorstores.elasticsearch import ElasticsearchStore
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								from configs import KB_ROOT_PATH, EMBEDDING_MODEL, EMBEDDING_DEVICE, CACHED_VS_NUM
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								from server.knowledge_base.kb_service.base import KBService, SupportedVSType
-												publish 0.2.10 (#2797)

新功能：
- 优化 PDF 文件的 OCR，过滤无意义的小图片 by @liunux4odoo #2525
- 支持 Gemini 在线模型 by @yhfgyyf #2630
- 支持 GLM4 在线模型 by @zRzRzRzRzRzRzR
- elasticsearch更新https连接 by @xldistance #2390
- 增强对PPT、DOC知识库文件的OCR识别 by @596192804 #2013
- 更新 Agent 对话功能 by @zRzRzRzRzRzRzR
- 每次创建对象时从连接池获取连接，避免每次执行方法时都新建连接 by @Lijia0 #2480
- 实现 ChatOpenAI 判断token有没有超过模型的context上下文长度 by @glide-the
- 更新运行数据库报错和项目里程碑 by @zRzRzRzRzRzRzR #2659
- 更新配置文件/文档/依赖 by @imClumsyPanda @zRzRzRzRzRzRzR
- 添加日文版 readme by @eltociear #2787

修复：
- langchain 更新后，PGVector 向量库连接错误 by @HALIndex #2591
- Minimax's model worker 错误 by @xyhshen 
- ES库无法向量检索.添加mappings创建向量索引 by MSZheng20 #2688
											
										
										
											2024-01-26 06:58:49 +08:00
+								from server.knowledge_base.utils import KnowledgeFile
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								from server.utils import load_local_embeddings
-												解决多次调用es创建索引失败的问题

											
										
										
											2023-12-11 10:39:59 +08:00
+								from elasticsearch import Elasticsearch,BadRequestError
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								from configs import logger
 								from configs import kbs_config
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								class ESKBService(KBService):
 								    def do_init(self):
 								        self.kb_path = self.get_kb_path(self.kb_name)
-												publish 0.2.10 (#2797)

新功能：
- 优化 PDF 文件的 OCR，过滤无意义的小图片 by @liunux4odoo #2525
- 支持 Gemini 在线模型 by @yhfgyyf #2630
- 支持 GLM4 在线模型 by @zRzRzRzRzRzRzR
- elasticsearch更新https连接 by @xldistance #2390
- 增强对PPT、DOC知识库文件的OCR识别 by @596192804 #2013
- 更新 Agent 对话功能 by @zRzRzRzRzRzRzR
- 每次创建对象时从连接池获取连接，避免每次执行方法时都新建连接 by @Lijia0 #2480
- 实现 ChatOpenAI 判断token有没有超过模型的context上下文长度 by @glide-the
- 更新运行数据库报错和项目里程碑 by @zRzRzRzRzRzRzR #2659
- 更新配置文件/文档/依赖 by @imClumsyPanda @zRzRzRzRzRzRzR
- 添加日文版 readme by @eltociear #2787

修复：
- langchain 更新后，PGVector 向量库连接错误 by @HALIndex #2591
- Minimax's model worker 错误 by @xyhshen 
- ES库无法向量检索.添加mappings创建向量索引 by MSZheng20 #2688
											
										
										
											2024-01-26 06:58:49 +08:00
+								        self.index_name = os.path.split(self.kb_path)[-1]
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        self.IP = kbs_config[self.vs_type()]['host']
 								        self.PORT = kbs_config[self.vs_type()]['port']
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								        self.user = kbs_config[self.vs_type()].get("user",'')
 								        self.password = kbs_config[self.vs_type()].get("password",'')
-												更新self.dims_length赋值错误 (#2380)


											
										
										
											2023-12-14 19:56:39 +08:00
+								        self.dims_length = kbs_config[self.vs_type()].get("dims_length",None)
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								        self.embeddings_model = load_local_embeddings(self.embed_model, EMBEDDING_DEVICE)
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        try:
 								            # ES python客户端连接（仅连接）
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            if self.user != "" and self.password != "":
 								                self.es_client_python =  Elasticsearch(f"http://{self.IP}:{self.PORT}",
 								                basic_auth=(self.user,self.password))
 								            else:
 								                logger.warning("ES未配置用户名和密码")
 								                self.es_client_python = Elasticsearch(f"http://{self.IP}:{self.PORT}")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        except ConnectionError:
 								            logger.error("连接到 Elasticsearch 失败！")
-												解决多次调用es创建索引失败的问题

											
										
										
											2023-12-11 10:39:59 +08:00
+								            raise ConnectionError
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        except Exception as e:
 								            logger.error(f"Error 发生 : {e}")
-												解决多次调用es创建索引失败的问题

											
										
										
											2023-12-11 10:39:59 +08:00
+								            raise e
 								        try:
 								            # 首先尝试通过es_client_python创建
-												publish 0.2.10 (#2797)

新功能：
- 优化 PDF 文件的 OCR，过滤无意义的小图片 by @liunux4odoo #2525
- 支持 Gemini 在线模型 by @yhfgyyf #2630
- 支持 GLM4 在线模型 by @zRzRzRzRzRzRzR
- elasticsearch更新https连接 by @xldistance #2390
- 增强对PPT、DOC知识库文件的OCR识别 by @596192804 #2013
- 更新 Agent 对话功能 by @zRzRzRzRzRzRzR
- 每次创建对象时从连接池获取连接，避免每次执行方法时都新建连接 by @Lijia0 #2480
- 实现 ChatOpenAI 判断token有没有超过模型的context上下文长度 by @glide-the
- 更新运行数据库报错和项目里程碑 by @zRzRzRzRzRzRzR #2659
- 更新配置文件/文档/依赖 by @imClumsyPanda @zRzRzRzRzRzRzR
- 添加日文版 readme by @eltociear #2787

修复：
- langchain 更新后，PGVector 向量库连接错误 by @HALIndex #2591
- Minimax's model worker 错误 by @xyhshen 
- ES库无法向量检索.添加mappings创建向量索引 by MSZheng20 #2688
											
										
										
											2024-01-26 06:58:49 +08:00
+								            mappings = {
 								                "properties": {
 								                    "dense_vector": {
 								                        "type": "dense_vector",
 								                        "dims": self.dims_length,
 								                        "index": True
 								                    }
 								                }
 								            }
 								            self.es_client_python.indices.create(index=self.index_name, mappings=mappings)
-												解决多次调用es创建索引失败的问题

											
										
										
											2023-12-11 10:39:59 +08:00
+								        except BadRequestError as e:
-												fix faiss vector error

											
										
										
											2024-03-01 14:04:27 +08:00
+								            logger.error("创建索引失败,重新" + e)
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								        try:
 								            # langchain ES 连接、创建索引
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            if self.user != "" and self.password != "":
 								                self.db_init = ElasticsearchStore(
 								                es_url=f"http://{self.IP}:{self.PORT}",
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								                index_name=self.index_name,
 								                query_field="context",
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								                vector_query_field="dense_vector",
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								                embedding=self.embeddings_model,
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								                es_user=self.user,
 								                es_password=self.password
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								            )
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            else:
 								                logger.warning("ES未配置用户名和密码")
 								                self.db_init = ElasticsearchStore(
 								                    es_url=f"http://{self.IP}:{self.PORT}",
 								                    index_name=self.index_name,
 								                    query_field="context",
 								                    vector_query_field="dense_vector",
 								                    embedding=self.embeddings_model,
 								                )
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        except ConnectionError:
-												解决多次调用es创建索引失败的问题

											
										
										
											2023-12-11 10:39:59 +08:00
+								            print("### 初始化 Elasticsearch 失败！")
 								            logger.error("### 初始化 Elasticsearch 失败！")
 								            raise ConnectionError
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        except Exception as e:
 								            logger.error(f"Error 发生 : {e}")
-												解决多次调用es创建索引失败的问题

											
										
										
											2023-12-11 10:39:59 +08:00
+								            raise e
 								        try:
 								            # 尝试通过db_init创建索引
 								            self.db_init._create_index_if_not_exists(
 								                                                     index_name=self.index_name,
 								                                                     dims_length=self.dims_length
 								                                                     )
 								        except Exception as e:
 								            logger.error("创建索引失败...")
 								            logger.error(e)
-												publish 0.2.10 (#2797)

新功能：
- 优化 PDF 文件的 OCR，过滤无意义的小图片 by @liunux4odoo #2525
- 支持 Gemini 在线模型 by @yhfgyyf #2630
- 支持 GLM4 在线模型 by @zRzRzRzRzRzRzR
- elasticsearch更新https连接 by @xldistance #2390
- 增强对PPT、DOC知识库文件的OCR识别 by @596192804 #2013
- 更新 Agent 对话功能 by @zRzRzRzRzRzRzR
- 每次创建对象时从连接池获取连接，避免每次执行方法时都新建连接 by @Lijia0 #2480
- 实现 ChatOpenAI 判断token有没有超过模型的context上下文长度 by @glide-the
- 更新运行数据库报错和项目里程碑 by @zRzRzRzRzRzRzR #2659
- 更新配置文件/文档/依赖 by @imClumsyPanda @zRzRzRzRzRzRzR
- 添加日文版 readme by @eltociear #2787

修复：
- langchain 更新后，PGVector 向量库连接错误 by @HALIndex #2591
- Minimax's model worker 错误 by @xyhshen 
- ES库无法向量检索.添加mappings创建向量索引 by MSZheng20 #2688
											
										
										
											2024-01-26 06:58:49 +08:00
+								            # raise e
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								    @staticmethod
 								    def get_kb_path(knowledge_base_name: str):
 								        return os.path.join(KB_ROOT_PATH, knowledge_base_name)
 								    @staticmethod
 								    def get_vs_path(knowledge_base_name: str):
 								        return os.path.join(ESKBService.get_kb_path(knowledge_base_name), "vector_store")
 								    def do_create_kb(self):
 								        if os.path.exists(self.doc_path):
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            if not os.path.exists(os.path.join(self.kb_path, "vector_store")):
 								                os.makedirs(os.path.join(self.kb_path, "vector_store"))
 								            else:
 								                logger.warning("directory `vector_store` already exists.")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								    def vs_type(self) -> str:
 								        return SupportedVSType.ES
 								    def _load_es(self, docs, embed_model):
 								        # 将docs写入到ES中
 								        try:
 								            # 连接 + 同时写入文档
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            if self.user != "" and self.password != "":
 								                self.db = ElasticsearchStore.from_documents(
 								                        documents=docs,
 								                        embedding=embed_model,
 								                        es_url= f"http://{self.IP}:{self.PORT}",
 								                        index_name=self.index_name,
 								                        distance_strategy="COSINE",
 								                        query_field="context",
 								                        vector_query_field="dense_vector",
 								                        verify_certs=False,
 								                        es_user=self.user,
 								                        es_password=self.password
 								                    )
 								            else:
 								                self.db = ElasticsearchStore.from_documents(
 								                        documents=docs,
 								                        embedding=embed_model,
 								                        es_url= f"http://{self.IP}:{self.PORT}",
 								                        index_name=self.index_name,
 								                        distance_strategy="COSINE",
 								                        query_field="context",
 								                        vector_query_field="dense_vector",
 								                        verify_certs=False)
 								        except ConnectionError as ce:
 								            print(ce)
 								            print("连接到 Elasticsearch 失败！")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								            logger.error("连接到 Elasticsearch 失败！")
 								        except Exception as e:
 								            logger.error(f"Error 发生 : {e}")
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            print(e)
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								    def do_search(self, query:str, top_k: int, score_threshold: float):
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        # 文本相似性检索
-												add log

											
										
										
											2024-01-02 15:22:35 +08:00
+								        print(f"do_search,top_k:{top_k},score_threshold:{score_threshold}")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        docs = self.db_init.similarity_search_with_score(query=query,
 								                                         k=top_k)
 								        return docs
-												add a new api to search content by keyword for es

											
										
										
											2024-02-27 11:05:55 +08:00
+								    def searchbyContent(self, query:str, top_k: int = 2):
 								        if self.es_client_python.indices.exists(index=self.index_name):
 								            print(f"******ESKBService searchByContent {self.index_name}")
 								            tem_query = {
 								                "query": {"match": {
 								                        "context": "*" + query + "*"
 								                    }}
 								                }
 								            search_results = self.es_client_python.search(index=self.index_name, body=tem_query, size=top_k)
 								            hits = [hit for hit in search_results["hits"]["hits"]]
 								            docs_and_scores = [
 								                (
 								                    Document(
 								                        page_content=hit["_source"]["context"],
 								                        metadata=hit["_source"]["metadata"],
 								                    )
 								                )
 								                for hit in hits
 								            ]
 								            return docs_and_scores
-												新功能：知识库管理界面支持查看、编辑、删除向量库文档 (#2471)

* 新功能：
- 知识库管理界面支持查看、编辑、删除向量库文档。暂不支持增加（aggrid添加新行比较麻烦，需要另外实现）
- 去除知识库管理界面中重建知识库和删除知识库按钮，建议用户到终端命令操作

修复：
- 所有与知识库名称、文件名称有关的数据库操作函数都改成大小写不敏感，所有路径统一为 posix 风格，避免因路径文本不一致导致数据重复和操作失效 （close #2232）

开发者：
- 添加 update_docs_by_id 函数与 API 接口。当前仅支持 FAISS，暂时未用到，未将来对知识库做更细致的修改做准备
- 统一 DocumentWithScore 与 DocumentWithVsId
- FAISS 返回的 Document.metadata 中包含 ID， 方便后续查找比对
- /knowledge_base/search_docs 接口支持 file_name, metadata 参数，可以据此检索文档

* fix bug
											
										
										
											2023-12-26 13:44:36 +08:00
+								    def del_doc_by_ids(self, ids: List[str]) -> bool:
 								        for doc_id in ids:
 								            try:
 								                self.es_client_python.delete(index=self.index_name,
 								                                            id=doc_id,
 								                                            refresh=True)
 								            except Exception as e:
 								                logger.error(f"ES Docs Delete Error! {e}")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								    def do_delete_doc(self, kb_file, **kwargs):
-												update

											
										
										
											2024-01-04 18:02:43 +08:00
+								        base_file_name = os.path.basename(kb_file.filepath)
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        if self.es_client_python.indices.exists(index=self.index_name):
 								            # 从向量数据库中删除索引(文档名称是Keyword)
 								            query = {
 								                "query": {
 								                    "term": {
-												update

											
										
										
											2024-01-04 18:02:43 +08:00
+								                        "metadata.source.keyword": base_file_name
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								                    }
 								                }
 								            }
-												update

											
										
										
											2024-01-04 18:02:43 +08:00
+								            print(f"***do_delete_doc: kb_file.filepath:{kb_file.filepath}, base_file_name:{base_file_name}")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								            # 注意设置size，默认返回10个。
 								            search_results = self.es_client_python.search(body=query, size=50)
 								            delete_list = [hit["_id"] for hit in search_results['hits']['hits']]
 								            if len(delete_list) == 0:
 								                return None
 								            else:
 								                for doc_id in delete_list:
 								                    try:
 								                        self.es_client_python.delete(index=self.index_name,
 								                                                     id=doc_id,
 								                                                     refresh=True)
 								                    except Exception as e:
-												新功能：知识库管理界面支持查看、编辑、删除向量库文档 (#2471)

* 新功能：
- 知识库管理界面支持查看、编辑、删除向量库文档。暂不支持增加（aggrid添加新行比较麻烦，需要另外实现）
- 去除知识库管理界面中重建知识库和删除知识库按钮，建议用户到终端命令操作

修复：
- 所有与知识库名称、文件名称有关的数据库操作函数都改成大小写不敏感，所有路径统一为 posix 风格，避免因路径文本不一致导致数据重复和操作失效 （close #2232）

开发者：
- 添加 update_docs_by_id 函数与 API 接口。当前仅支持 FAISS，暂时未用到，未将来对知识库做更细致的修改做准备
- 统一 DocumentWithScore 与 DocumentWithVsId
- FAISS 返回的 Document.metadata 中包含 ID， 方便后续查找比对
- /knowledge_base/search_docs 接口支持 file_name, metadata 参数，可以据此检索文档

* fix bug
											
										
										
											2023-12-26 13:44:36 +08:00
+								                        logger.error(f"ES Docs Delete Error! {e}")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								            # self.db_init.delete(ids=delete_list)
 								            #self.es_client_python.indices.refresh(index=self.index_name)
 								    def do_add_doc(self, docs: List[Document], **kwargs):
 								        '''向知识库添加文件'''
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								        print(f"server.knowledge_base.kb_service.es_kb_service.do_add_doc 输入的docs参数长度为:{len(docs)}")
 								        print("*"*100)
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        self._load_es(docs=docs, embed_model=self.embeddings_model)
 								        # 获取 id 和 source , 格式：[{"id": str, "metadata": dict}, ...]
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								        print("写入数据成功.")
 								        print("*"*100)
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								        if self.es_client_python.indices.exists(index=self.index_name):
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								            file_path = docs[0].metadata.get("source")
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
+								            query = {
 								                "query": {
 								                    "term": {
 								                        "metadata.source.keyword": file_path
 								                    }
 								                }
 								            }
 								            search_results = self.es_client_python.search(body=query)
 								            if len(search_results["hits"]["hits"]) == 0:
 								                raise ValueError("召回元素个数为0")
-												增加ElasticSearch支持

											
										
										
											2023-11-10 16:04:41 +08:00
+								        info_docs = [{"id":hit["_id"], "metadata": hit["_source"]["metadata"]} for hit in search_results["hits"]["hits"]]
 								        return info_docs
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00
 								    def do_clear_vs(self):
 								        """从知识库删除全部向量"""
 								        if self.es_client_python.indices.exists(index=self.kb_name):
 								            self.es_client_python.indices.delete(index=self.kb_name)
 								    def do_drop_kb(self):
 								        """删除知识库"""
 								        # self.kb_file: 知识库路径
 								        if os.path.exists(self.kb_path):
 								            shutil.rmtree(self.kb_path)
-												publish 0.2.10 (#2797)

新功能：
- 优化 PDF 文件的 OCR，过滤无意义的小图片 by @liunux4odoo #2525
- 支持 Gemini 在线模型 by @yhfgyyf #2630
- 支持 GLM4 在线模型 by @zRzRzRzRzRzRzR
- elasticsearch更新https连接 by @xldistance #2390
- 增强对PPT、DOC知识库文件的OCR识别 by @596192804 #2013
- 更新 Agent 对话功能 by @zRzRzRzRzRzRzR
- 每次创建对象时从连接池获取连接，避免每次执行方法时都新建连接 by @Lijia0 #2480
- 实现 ChatOpenAI 判断token有没有超过模型的context上下文长度 by @glide-the
- 更新运行数据库报错和项目里程碑 by @zRzRzRzRzRzRzR #2659
- 更新配置文件/文档/依赖 by @imClumsyPanda @zRzRzRzRzRzRzR
- 添加日文版 readme by @eltociear #2787

修复：
- langchain 更新后，PGVector 向量库连接错误 by @HALIndex #2591
- Minimax's model worker 错误 by @xyhshen 
- ES库无法向量检索.添加mappings创建向量索引 by MSZheng20 #2688
											
										
										
											2024-01-26 06:58:49 +08:00
+								if __name__ == '__main__':
 								    esKBService = ESKBService("test")
 								    #esKBService.clear_vs()
 								    #esKBService.create_kb()
 								    esKBService.add_doc(KnowledgeFile(filename="README.md", knowledge_base_name="test"))
 								    print(esKBService.search_docs("如何启动api服务"))
-												add ES function

											
										
										
											2023-09-14 07:54:42 +08:00