互联网搜索api修改

2025-04-18 09:12:52 +08:00 · 2025-04-18 09:12:52 +08:00 · cc8564ccca
parent 8cd80dcd9c
commit cc8564ccca
2 changed files with 46 additions and 31 deletions
--- a/.gitignore
+++ b/.gitignore
@ -21,3 +21,20 @@
 .idea/vcs.xml
 /.idea
 /test_tool
 chatchat_data/tool_settings.yaml
 chatchat_data/prompt_settings.yaml
 chatchat_data/model_settings.yaml
 chatchat_data/basic_settings.yaml
 localconfig/data/knowledge_base/samples/content/分布式训练技术原理.md
 localconfig/data/knowledge_base/samples/content/大模型应用技术原理.md
 localconfig/data/knowledge_base/samples/content/大模型技术栈-实战与应用.md
 localconfig/data/knowledge_base/samples/content/大模型技术栈-算法与原理.md
 localconfig/data/knowledge_base/samples/content/大模型指令对齐训练原理.md
 localconfig/data/knowledge_base/samples/content/大模型推理优化策略.md
 localconfig/data/knowledge_base/samples/vector_store/bge-large-zh-v1.5/index.faiss
 localconfig/data/knowledge_base/samples/vector_store/bge-large-zh-v1.5/index.pkl
 localconfig/data/knowledge_base/info.db
 chatchat_data/basic_settings.yaml
 chatchat_data/model_settings.yaml
 chatchat_data/prompt_settings.yaml
 chatchat_data/tool_settings.yaml
--- a/libs/chatchat-server/chatchat/server/agent/tools_factory/search_internet.py
+++ b/libs/chatchat-server/chatchat/server/agent/tools_factory/search_internet.py
@ -1,3 +1,4 @@
 import json
 import uuid
 from typing import Dict, List
@ -19,6 +20,7 @@ from chatchat.utils import build_logger
 # from tavily import TavilyClient
 from .tools_registry import BaseToolOutput, regist_tool, format_context
 logger = build_logger()
@ -91,6 +93,7 @@ def metaphor_search(
    return docs
 def tavily_search(text, config, top_k):
    # 配置tavily api key
    os.environ["TAVILY_API_KEY"] = config["tavily_api_key"]
@ -109,7 +112,9 @@ def tavily_search(text, config, top_k):
    # print("=== 完整搜索返回值 ===")
    # print(search_results)
    return search_results
-def zhipu_search(text, config):
+
 def zhipu_search(text, config, top_k):
    api_key = config["zhipu_api_key"]
    msg = [
        {
@ -132,9 +137,9 @@ def zhipu_search(text, config):
        headers={'Authorization': api_key},
        timeout=300
    )
    print(resp.content.decode())
    return resp.content.decode()
 SEARCH_ENGINES = {
    "bing": bing_search,
    "duckduckgo": duckduckgo_search,
@ -145,32 +150,24 @@ SEARCH_ENGINES = {
 }
 # tavily的解析
 # def search_result2docs_tavily(search_results) -> List[Document]:
 #     docs = []
 #     for result in search_results:
 #         doc = Document(
 #             page_content=result["content"] if "content" in result.keys() else "",
 #             metadata={
 #                 "source": result["url"] if "url" in result.keys() else "",
 #                 "filename": result["title"] if "title" in result.keys() else "",
 #             },
 #         )
 #         docs.append(doc)
 #     return docs
 def search_result2docs(search_results, engine_name) -> List[Document]:
    docs = []
    if engine_name == "zhipu_search":
        try:
-            results = search_results["choices"][0]["message"]["tool_calls"][1]["search_result"]
+            raw_result = json.loads(search_results)
            results = raw_result["choices"][0]["message"]["tool_calls"][1]["search_result"]
        except (KeyError, IndexError) as e:
            print(f"结构异常: {e}")
            results = []
        # 遍历并处理每个结果
-        for idx, result in enumerate(search_results, 1):
+
-            docs.append(result.get('content', '无内容'))
+        for idx, result in enumerate(results, 1):
-            print(f"内容:\n{result.get('content', '无内容')}\n")
+            doc = Document(
                page_content=result["content"],
                metadata={"link": result["link"], "title": result["title"]}
            )
            docs.append(doc)
            print(f"内容:\n{result}\n")
        return docs
    page_contents_key = "snippet" if engine_name != "tavily" else "content"
    metadata_key = "link" if engine_name != "tavily" else "url"
@ -199,6 +196,7 @@ def search_engine(query: str, top_k:int=0, engine_name: str="", config: dict={})
    docs = [x for x in search_result2docs(results, engine_name) if x.page_content and x.page_content.strip()]
    print(f"len(docs): {len(docs)}")
    print(f"docs: {docs}")
    return {"docs": docs, "search_engine": engine_name}