Dev (#1822)

* 支持了agentlm * 支持了agentlm和相关提示词 * 修改了Agent的一些功能，加入了Embed方面的一个优化 --------- Co-authored-by: zR <zRzRzRzRzRzRzR>
2023-10-22 00:00:15 +08:00 · 2023-10-22 00:00:15 +08:00 · 1b50547e60
parent 1c5382d96b
commit 1b50547e60
14 changed files with 82 additions and 51 deletions
--- a/configs/kb_config.py.example
+++ b/configs/kb_config.py.example
@ -116,3 +116,6 @@ text_splitter_dict = {
 # TEXT_SPLITTER 名称
 TEXT_SPLITTER_NAME = "ChineseRecursiveTextSplitter"
 ## Embedding模型定制词语的词表文件
 EMBEDDING_KEYWORD_FILE = "embedding_keywords.txt"
--- a/embeddings/add_embedding_keywords.py
+++ b/embeddings/add_embedding_keywords.py
@ -0,0 +1,55 @@
 '''
 该功能是为了将关键词加入到embedding模型中，以便于在embedding模型中进行关键词的embedding
 该功能的实现是通过修改embedding模型的tokenizer来实现的
 该功能仅仅对EMBEDDING_MODEL参数对应的的模型有效，输出后的模型保存在原本模型
 该功能的Idea由社区贡献，感谢@CharlesJu1
 保存的模型的位置位于原本嵌入模型的目录下，模型的名称为原模型名称+Merge_Keywords_时间戳
 '''
 import sys
 sys.path.append("..")
 import os
 from safetensors.torch import save_model
 from sentence_transformers import SentenceTransformer
 from datetime import datetime
 from configs import (
    MODEL_PATH,
    EMBEDDING_MODEL,
    EMBEDDING_KEYWORD_FILE,
 )
 def add_keyword_to_model(model_name: str = EMBEDDING_MODEL, keyword_file: str = "", output_model_path: str = None):
    key_words = []
    with open(keyword_file, "r") as f:
        for line in f:
            key_words.append(line.strip())
    model = SentenceTransformer(model_name)
    word_embedding_model = model._first_module()
    tokenizer = word_embedding_model.tokenizer
    tokenizer.add_tokens(key_words)
    word_embedding_model.auto_model.resize_token_embeddings(len(tokenizer), pad_to_multiple_of=32)
    if output_model_path:
        os.makedirs(output_model_path, exist_ok=True)
        tokenizer.save_pretrained(output_model_path)
        model.save(output_model_path)
        safetensors_file = os.path.join(output_model_path, "model.safetensors")
        metadata = {'format': 'pt'}
        save_model(model, safetensors_file, metadata)
 def add_keyword_to_embedding_model(path: str = EMBEDDING_KEYWORD_FILE):
    keyword_file = os.path.join(path)
    model_name = MODEL_PATH["embed_model"][EMBEDDING_MODEL]
    model_parent_directory = os.path.dirname(model_name)
    current_time = datetime.now().strftime('%Y%m%d_%H%M%S')
    output_model_name = "{}_Merge_Keywords_{}".format(EMBEDDING_MODEL, current_time)
    output_model_path = os.path.join(model_parent_directory, output_model_name)
    add_keyword_to_model(model_name, keyword_file, output_model_path)
    print("save model to {}".format(output_model_path))
 if __name__ == '__main__':
    add_keyword_to_embedding_model(EMBEDDING_KEYWORD_FILE)
--- a/embeddings/embedding_keywords.txt
+++ b/embeddings/embedding_keywords.txt
@ -0,0 +1,3 @@
 Langchain-Chatchat
 数据科学与大数据技术
 人工智能与先进计算
--- a/server/agent/custom_template.py
+++ b/server/agent/custom_template.py
@ -37,7 +37,7 @@ class CustomOutputParser(AgentOutputParser):
    def parse(self, llm_output: str) -> AgentFinish | tuple[dict[str, str], str] | AgentAction:
        # Check if agent should finish
-        support_agent = ["Azure-OpenAI", "OpenAI", "Anthropic", "Qwen", "qwen-api", "baichuan-api"]  # 目前支持agent的模型
+        support_agent = ["Azure-OpenAI", "OpenAI", "Anthropic", "Qwen", "qwen-api", "baichuan-api","agentlm"]  # 目前支持agent的模型
        if not any(agent in model_container.MODEL for agent in support_agent) and self.begin:
            self.begin = False
            stop_words = ["Observation:"]
--- a/server/agent/tools/calculate.py
+++ b/server/agent/tools/calculate.py
@ -1,8 +1,3 @@
 ## 单独运行的时候需要添加
 import sys
 import os
 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))))
 from langchain.prompts import PromptTemplate
 from langchain.chains import LLMMathChain
 from server.agent import model_container
@ -19,7 +14,7 @@ ${{运行代码的输出}}
 ```
 答案: ${{答案}}
-这是两个例子： 
+这是两个例子：
 问题: 37593 * 67是多少？
 ```text
@ -56,6 +51,7 @@ ${{运行代码的输出}}
 现在，这是我的问题：
 问题: {question}
 """
 PROMPT = PromptTemplate(
    input_variables=["question"],
    template=_PROMPT_TEMPLATE,
--- a/server/agent/tools/search_all_knowledge_more.py
+++ b/server/agent/tools/search_all_knowledge_more.py
@ -1,9 +1,3 @@
 ## 单独运行的时候需要添加
 import sys
 import os
 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))))
 import json
 import re
 import warnings
--- a/server/agent/tools/search_all_knowledge_once.py
+++ b/server/agent/tools/search_all_knowledge_once.py
@ -1,8 +1,3 @@
 ## 单独运行的时候需要添加
 # import sys
 # import os
 # sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))))
 import re
 import warnings
 from typing import Dict
--- a/server/agent/tools/search_internet.py
+++ b/server/agent/tools/search_internet.py
@ -1,8 +1,3 @@
 ## 单独运行的时候需要添加
 # import sys
 # import os
 # sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))))
 import json
 from server.chat import search_engine_chat
 from configs import VECTOR_SEARCH_TOP_K
--- a/server/agent/tools/search_knowledge_simple.py
+++ b/server/agent/tools/search_knowledge_simple.py
@ -1,10 +1,3 @@
 ## 最简单的版本，只支持固定的知识库
 # ## 单独运行的时候需要添加
 # import sys
 # import os
 # sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))))
 from server.chat.knowledge_base_chat import knowledge_base_chat
 from configs import VECTOR_SEARCH_TOP_K, SCORE_THRESHOLD
 import json
--- a/server/agent/tools/translator.py
+++ b/server/agent/tools/translator.py
@ -1,8 +1,3 @@
 ## 单独运行的时候需要添加
 # import sys
 # import os
 # sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))))
 from langchain.prompts import PromptTemplate
 from langchain.chains import LLMChain
 from server.agent import model_container
--- a/server/agent/tools/weather.py
+++ b/server/agent/tools/weather.py
@ -1,12 +1,4 @@
-## 使用和风天气API查询天气,这个模型仅仅对免费的API进行了适配
+## 使用和风天气API查询天气,这个模型仅仅对免费的API进行了适配，建议使用GPT4等高级模型进行适配
 ## 这个模型的提示词非常复杂，我们推荐使用GPT4模型进行运行
 from __future__ import annotations
 ## 单独运行的时候需要添加
 import sys
 import os
 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
 import re
 import warnings
 from typing import Dict
@ -30,8 +22,6 @@ from server.agent import model_container
 KEY = "ac880e5a877042809ac7ffdd19d95b0d"
 #key长这样，这里提供了示例的key，这个key没法使用，你需要自己去注册和风天气的账号，然后在这里填入你的key
 _PROMPT_TEMPLATE = """
 用户会提出一个关于天气的问题，你的目标是拆分出用户问题中的区，市 并按照我提供的工具回答。
 例如 用户提出的问题是: 上海浦东未来1小时天气情况？
--- a/server/agent/tools_select.py
+++ b/server/agent/tools_select.py
@ -58,12 +58,12 @@ tools = [
    ),
    Tool.from_function(
        func=knowledge_search_more,
-        name="Knowledge Base Query Tool",
+        name="Knowledge Base Tool",
        description="Prioritize accessing the knowledge base to get answers"
    ),
    Tool.from_function(
        func=search_internet,
-        name="Internet Query Tool",
+        name="Internet Tool",
        description="If you can't access the internet, this tool can help you access Bing to answer questions"
    ),
 ]
--- a/server/chat/agent_chat.py
+++ b/server/chat/agent_chat.py
@ -5,7 +5,7 @@ from langchain.agents import AgentExecutor, LLMSingleActionAgent
 from server.agent.custom_template import CustomOutputParser, CustomPromptTemplate
 from fastapi import Body
 from fastapi.responses import StreamingResponse
-from configs import LLM_MODEL, TEMPERATURE, HISTORY_LEN
+from configs import LLM_MODEL, TEMPERATURE, HISTORY_LEN,Agent_MODEL
 from server.utils import wrap_done, get_ChatOpenAI, get_prompt_template
 from langchain.chains import LLMChain
 from typing import AsyncIterable, Optional, Dict
@ -49,7 +49,19 @@ async def agent_chat(query: str = Body(..., description="用户输入", examples
        ## 传入全局变量来实现agent调用
        kb_list = {x["kb_name"]: x for x in get_kb_details()}
        model_container.DATABASE = {name: details['kb_info'] for name, details in kb_list.items()}
-        model_container.MODEL = model
+
        if Agent_MODEL:
            ## 如果有指定使用Agent模型来完成任务
            model_agent = get_ChatOpenAI(
                model_name=Agent_MODEL,
                temperature=temperature,
                max_tokens=max_tokens,
                callbacks=[callback],
            )
            model_container.MODEL = model_agent
        else:
            model_container.MODEL = model
        prompt_template = get_prompt_template("agent_chat", prompt_name)
        prompt_template_agent = CustomPromptTemplate(
--- a/webui_pages/dialogue/dialogue.py
+++ b/webui_pages/dialogue/dialogue.py
@ -224,7 +224,7 @@ def dialogue_page(api: ApiRequest):
            ])
            text = ""
            ans = ""
-            support_agent = ["Azure-OpenAI", "OpenAI", "Anthropic", "Qwen", "qwen-api", "baichuan-api"]  # 目前支持agent的模型
+            support_agent = ["Azure-OpenAI", "OpenAI", "Anthropic", "Qwen", "qwen-api", "baichuan-api","agentlm"]  # 目前支持agent的模型
            if not any(agent in llm_model for agent in support_agent):
                ans += "正在思考... \n\n <span style='color:red'>该模型并没有进行Agent对齐，请更换支持Agent的模型获得更好的体验！</span>\n\n\n"
                chat_box.update_msg(ans, element_index=0, streaming=False)