Langchain-Chatchat/server/embeddings_api.py

from langchain.docstore.document import Document
from configs import EMBEDDING_MODEL, logger
from server.model_workers.base import ApiEmbeddingsParams
from server.utils import BaseResponse, get_model_worker_config, list_embed_models, list_online_embed_models
from fastapi import Body
from typing import Dict, List


online_embed_models = list_online_embed_models()


def embed_texts(
    texts: List[str],
    embed_model: str = EMBEDDING_MODEL,
    to_query: bool = False,
) -> BaseResponse:
    '''
    对文本进行向量化。返回数据格式：BaseResponse(data=List[List[float]])
    TODO: 也许需要加入缓存机制，减少 token 消耗
    '''
    try:
        if embed_model in list_embed_models(): # 使用本地Embeddings模型
            from server.utils import load_local_embeddings

            embeddings = load_local_embeddings(model=embed_model)
            return BaseResponse(data=embeddings.embed_documents(texts))

        if embed_model in list_online_embed_models(): # 使用在线API
            config = get_model_worker_config(embed_model)
            worker_class = config.get("worker_class")
            worker = worker_class()
            if worker_class.can_embedding():
                params = ApiEmbeddingsParams(texts=texts, to_query=to_query)
                resp = worker.do_embeddings(params)
                return BaseResponse(**resp)

        return BaseResponse(code=500, msg=f"指定的模型 {embed_model} 不支持 Embeddings 功能。")
    except Exception as e:
        logger.error(e)
        return BaseResponse(code=500, msg=f"文本向量化过程中出现错误：{e}")

def embed_texts_endpoint(
    texts: List[str] = Body(..., description="要嵌入的文本列表", examples=[["hello", "world"]]),
    embed_model: str = Body(EMBEDDING_MODEL, description=f"使用的嵌入模型，除了本地部署的Embedding模型，也支持在线API({online_embed_models})提供的嵌入服务。"),
    to_query: bool = Body(False, description="向量是否用于查询。有些模型如Minimax对存储/查询的向量进行了区分优化。"),
) -> BaseResponse:
    '''
    对文本进行向量化，返回 BaseResponse(data=List[List[float]])
    '''
    return embed_texts(texts=texts, embed_model=embed_model, to_query=to_query)


def embed_documents(
    docs: List[Document],
    embed_model: str = EMBEDDING_MODEL,
    to_query: bool = False,
) -> Dict:
    """
    将 List[Document] 向量化，转化为 VectorStore.add_embeddings 可以接受的参数
    """
    texts = [x.page_content for x in docs]
    metadatas = [x.metadata for x in docs]
    embeddings = embed_texts(texts=texts, embed_model=embed_model, to_query=to_query).data
    if embeddings is not None:
        return {
            "texts": texts,
            "embeddings": embeddings,
            "metadatas": metadatas,
        }
-												支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api (#1907)

* 新功能：
- 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api
- API 增加 /other/embed_texts 接口
- init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）

问题修复：
- API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误

开发者：
- 优化 kb_service 中 Embeddings 操作：
  - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参
  - 统一文本嵌入接口：server.embedding_api.[embed_texts, embed_documents]

											
										
										
											2023-10-28 23:37:30 +08:00
+								from langchain.docstore.document import Document
 								from configs import EMBEDDING_MODEL, logger
 								from server.model_workers.base import ApiEmbeddingsParams
 								from server.utils import BaseResponse, get_model_worker_config, list_embed_models, list_online_embed_models
 								from fastapi import Body
 								from typing import Dict, List
 								online_embed_models = list_online_embed_models()
 								def embed_texts(
 								    texts: List[str],
 								    embed_model: str = EMBEDDING_MODEL,
 								    to_query: bool = False,
 								) -> BaseResponse:
 								    '''
 								    对文本进行向量化。返回数据格式：BaseResponse(data=List[List[float]])
-												支持在线 Embeddings, Lite 模式支持所有知识库相关功能 (#1924)

新功能：
- 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api
- API 增加 /other/embed_texts 接口
- init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）
- 对于 FAISS 知识库，支持多向量库，默认位置：{KB_PATH}/vector_store/{embed_model}
- Lite 模式支持所有知识库相关功能。此模式下最主要的限制是：
  - 不能使用本地 LLM 和 Embeddings 模型
  - 知识库不支持 PDF 文件
- init_database.py 重建知识库时不再默认情况数据库表，增加 clear-tables 参数手动控制。
- API 和 WEBUI 中 score_threshold 参数范围改为 [0, 2]，以更好的适应在线嵌入模型

问题修复：
- API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误

开发者：
- 统一向量库的识别：以（kb_name,embed_model）为判断向量库唯一性的依据，避免 FAISS 知识库缓存加载逻辑错误
- KBServiceFactory.get_service_by_name 中添加 default_embed_model 参数，用于在构建新知识库时设置 embed_model
- 优化 kb_service 中 Embeddings 操作：
  - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参
  - 统一文本嵌入接口：server.knowledge_base.kb_service.base.[embed_texts, embed_documents]
- 重写 normalize 函数，去除对 scikit-learn/scipy 的依赖 

											
										
										
											2023-10-31 14:26:50 +08:00
+								    TODO: 也许需要加入缓存机制，减少 token 消耗
-												支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api (#1907)

* 新功能：
- 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api
- API 增加 /other/embed_texts 接口
- init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）

问题修复：
- API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误

开发者：
- 优化 kb_service 中 Embeddings 操作：
  - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参
  - 统一文本嵌入接口：server.embedding_api.[embed_texts, embed_documents]

											
										
										
											2023-10-28 23:37:30 +08:00
+								    '''
 								    try:
 								        if embed_model in list_embed_models(): # 使用本地Embeddings模型
 								            from server.utils import load_local_embeddings
 								            embeddings = load_local_embeddings(model=embed_model)
 								            return BaseResponse(data=embeddings.embed_documents(texts))
 								        if embed_model in list_online_embed_models(): # 使用在线API
 								            config = get_model_worker_config(embed_model)
 								            worker_class = config.get("worker_class")
 								            worker = worker_class()
 								            if worker_class.can_embedding():
 								                params = ApiEmbeddingsParams(texts=texts, to_query=to_query)
 								                resp = worker.do_embeddings(params)
 								                return BaseResponse(**resp)
 								        return BaseResponse(code=500, msg=f"指定的模型 {embed_model} 不支持 Embeddings 功能。")
 								    except Exception as e:
 								        logger.error(e)
 								        return BaseResponse(code=500, msg=f"文本向量化过程中出现错误：{e}")
 								def embed_texts_endpoint(
 								    texts: List[str] = Body(..., description="要嵌入的文本列表", examples=[["hello", "world"]]),
 								    embed_model: str = Body(EMBEDDING_MODEL, description=f"使用的嵌入模型，除了本地部署的Embedding模型，也支持在线API({online_embed_models})提供的嵌入服务。"),
 								    to_query: bool = Body(False, description="向量是否用于查询。有些模型如Minimax对存储/查询的向量进行了区分优化。"),
 								) -> BaseResponse:
 								    '''
 								    对文本进行向量化，返回 BaseResponse(data=List[List[float]])
 								    '''
 								    return embed_texts(texts=texts, embed_model=embed_model, to_query=to_query)
 								def embed_documents(
 								    docs: List[Document],
 								    embed_model: str = EMBEDDING_MODEL,
 								    to_query: bool = False,
 								) -> Dict:
 								    """
 								    将 List[Document] 向量化，转化为 VectorStore.add_embeddings 可以接受的参数
 								    """
 								    texts = [x.page_content for x in docs]
 								    metadatas = [x.metadata for x in docs]
 								    embeddings = embed_texts(texts=texts, embed_model=embed_model, to_query=to_query).data
 								    if embeddings is not None:
 								        return {
 								            "texts": texts,
 								            "embeddings": embeddings,
 								            "metadatas": metadatas,
 								        }