Langchain-Chatchat/server/llm_api.py

from fastapi import Body
from configs import logger, log_verbose, LLM_MODEL, HTTPX_DEFAULT_TIMEOUT,LANGCHAIN_LLM_MODEL
from server.utils import (BaseResponse, fschat_controller_address, list_config_llm_models,
                          get_httpx_client, get_model_worker_config)


def list_running_models(
    controller_address: str = Body(None, description="Fastchat controller服务器地址", examples=[fschat_controller_address()]),
    placeholder: str = Body(None, description="该参数未使用，占位用"),
) -> BaseResponse:
    '''
    从fastchat controller获取已加载模型列表及其配置项
    '''
    try:
        controller_address = controller_address or fschat_controller_address()
        with get_httpx_client() as client:
            r = client.post(controller_address + "/list_models")
            models = r.json()["models"]
            data = {m: get_model_config(m).data for m in models}
            return BaseResponse(data=data)
    except Exception as e:
        logger.error(f'{e.__class__.__name__}: {e}',
                        exc_info=e if log_verbose else None)
        return BaseResponse(
            code=500,
            data={},
            msg=f"failed to get available models from controller: {controller_address}。错误信息是： {e}")


def list_config_models() -> BaseResponse:
    '''
    从本地获取configs中配置的模型列表
    '''
    configs = list_config_llm_models()
    # 删除ONLINE_MODEL配置中的敏感信息
    for config in configs["online"].values():
        del_keys = set(["worker_class"])
        for k in config:
            if "key" in k.lower() or "secret" in k.lower():
                del_keys.add(k)
        for k in del_keys:
            config.pop(k, None)

    return BaseResponse(data=configs)


def get_model_config(
    model_name: str = Body(description="配置中LLM模型的名称"),
    placeholder: str = Body(description="占位用，无实际效果")
) -> BaseResponse:
    '''
    获取LLM模型配置项（合并后的）
    '''
    config = get_model_worker_config(model_name=model_name)
    # 删除ONLINE_MODEL配置中的敏感信息
    del_keys = set(["worker_class"])
    for k in config:
        if "key" in k.lower() or "secret" in k.lower():
            del_keys.add(k)
    for k in del_keys:
        config.pop(k, None)

    return BaseResponse(data=config)


def stop_llm_model(
    model_name: str = Body(..., description="要停止的LLM模型名称", examples=[LLM_MODEL]),
    controller_address: str = Body(None, description="Fastchat controller服务器地址", examples=[fschat_controller_address()])
) -> BaseResponse:
    '''
    向fastchat controller请求停止某个LLM模型。
    注意：由于Fastchat的实现方式，实际上是把LLM模型所在的model_worker停掉。
    '''
    try:
        controller_address = controller_address or fschat_controller_address()
        with get_httpx_client() as client:
            r = client.post(
                controller_address + "/release_worker",
                json={"model_name": model_name},
            )
            return r.json()
    except Exception as e:
        logger.error(f'{e.__class__.__name__}: {e}',
                        exc_info=e if log_verbose else None)
        return BaseResponse(
            code=500,
            msg=f"failed to stop LLM model {model_name} from controller: {controller_address}。错误信息是： {e}")


def change_llm_model(
    model_name: str = Body(..., description="当前运行模型", examples=[LLM_MODEL]),
    new_model_name: str = Body(..., description="要切换的新模型", examples=[LLM_MODEL]),
    controller_address: str = Body(None, description="Fastchat controller服务器地址", examples=[fschat_controller_address()])
):
    '''
    向fastchat controller请求切换LLM模型。
    '''
    try:
        controller_address = controller_address or fschat_controller_address()
        with get_httpx_client() as client:
            r = client.post(
                controller_address + "/release_worker",
                json={"model_name": model_name, "new_model_name": new_model_name},
                timeout=HTTPX_DEFAULT_TIMEOUT, # wait for new worker_model
            )
            return r.json()
    except Exception as e:
        logger.error(f'{e.__class__.__name__}: {e}',
                        exc_info=e if log_verbose else None)
        return BaseResponse(
            code=500,
            msg=f"failed to switch LLM model from controller: {controller_address}。错误信息是： {e}")


def list_search_engines() -> BaseResponse:
    from server.chat.search_engine_chat import SEARCH_ENGINES

    return BaseResponse(data=list(SEARCH_ENGINES))
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								from fastapi import Body
-												合并分支，支持 (#1808)

* 北京黑客松更新

知识库支持：
支持zilliz数据库
Agent支持：
支持以下工具调用
1. 支持互联网Agent调用
2. 支持知识库Agent调用
3. 支持旅游助手工具(未上传）

知识库更新
1. 支持知识库简介，用于Agent选择
2. UI对应知识库简介

提示词选择
1. UI 和模板支持提示词模板更换选择

* 数据库更新介绍问题解决

* 关于Langchain自己支持的模型

1. 修复了Openai无法调用的bug
2. 支持了Azure Openai Claude模型
（在模型切换界面由于优先级问题，显示的会是其他联网模型)
3. 422问题被修复，用了另一种替代方案。
4. 更新了部分依赖
											
										
										
											2023-10-20 18:13:55 +08:00
+								from configs import logger, log_verbose, LLM_MODEL, HTTPX_DEFAULT_TIMEOUT,LANGCHAIN_LLM_MODEL
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
+								from server.utils import (BaseResponse, fschat_controller_address, list_config_llm_models,
 								                          get_httpx_client, get_model_worker_config)
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
-												优化LLM模型列表获取、切换的逻辑： (#1497)

1、更准确的获取未运行的可用模型
2、优化WEBUI模型列表显示与切换的控制逻辑
											
										
										
											2023-09-16 07:15:08 +08:00
+								def list_running_models(
-												fix api and webui: (#1435)

1. fix #1431: 优化知识库问答与搜索引擎问答的API接口，避免docs重复返回
2. startup.py根据configs.log_verbose控制log级别
3. 修复/llm_model/list_models的bug:
   只有一个参数时，fastapi未返回json导致视图函数出错
											
										
										
											2023-09-12 08:31:17 +08:00
+								    controller_address: str = Body(None, description="Fastchat controller服务器地址", examples=[fschat_controller_address()]),
 								    placeholder: str = Body(None, description="该参数未使用，占位用"),
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								) -> BaseResponse:
 								    '''
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
+								    从fastchat controller获取已加载模型列表及其配置项
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								    '''
 								    try:
 								        controller_address = controller_address or fschat_controller_address()
-												将所有httpx请求改为使用Client，提高效率，方便以后设置代理等。 (#1554)

将所有httpx请求改为使用Client，提高效率，方便以后设置代理等。

将本项目相关服务加入无代理列表，避免fastchat的服务器请求错误。(windows下无效)
											
										
										
											2023-09-21 15:19:51 +08:00
+								        with get_httpx_client() as client:
 								            r = client.post(controller_address + "/list_models")
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
+								            models = r.json()["models"]
-												新功能： (#1801)

- 更新langchain/fastchat依赖，添加xformers依赖
- 默认max_tokens=None, 生成tokens自动为模型支持的最大值

修复：
- history_len=0 时会带入1条不完整的历史消息，导致LLM错误
- 当对话轮数 达到history_len时，传入的历史消息为空
											
										
										
											2023-10-19 22:09:15 +08:00
+								            data = {m: get_model_config(m).data for m in models}
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
+								            return BaseResponse(data=data)
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								    except Exception as e:
 								        logger.error(f'{e.__class__.__name__}: {e}',
 								                        exc_info=e if log_verbose else None)
 								        return BaseResponse(
 								            code=500,
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
+								            data={},
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								            msg=f"failed to get available models from controller: {controller_address}。错误信息是： {e}")
-												优化LLM模型列表获取、切换的逻辑： (#1497)

1、更准确的获取未运行的可用模型
2、优化WEBUI模型列表显示与切换的控制逻辑
											
										
										
											2023-09-16 07:15:08 +08:00
+								def list_config_models() -> BaseResponse:
 								    '''
 								    从本地获取configs中配置的模型列表
 								    '''
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
+								    configs = list_config_llm_models()
 								    # 删除ONLINE_MODEL配置中的敏感信息
 								    for config in configs["online"].values():
 								        del_keys = set(["worker_class"])
 								        for k in config:
 								            if "key" in k.lower() or "secret" in k.lower():
 								                del_keys.add(k)
 								        for k in del_keys:
 								            config.pop(k, None)
 								    return BaseResponse(data=configs)
 								def get_model_config(
 								    model_name: str = Body(description="配置中LLM模型的名称"),
 								    placeholder: str = Body(description="占位用，无实际效果")
 								) -> BaseResponse:
 								    '''
 								    获取LLM模型配置项（合并后的）
 								    '''
 								    config = get_model_worker_config(model_name=model_name)
 								    # 删除ONLINE_MODEL配置中的敏感信息
 								    del_keys = set(["worker_class"])
 								    for k in config:
 								        if "key" in k.lower() or "secret" in k.lower():
 								            del_keys.add(k)
 								    for k in del_keys:
 								        config.pop(k, None)
 								    return BaseResponse(data=config)
-												优化LLM模型列表获取、切换的逻辑： (#1497)

1、更准确的获取未运行的可用模型
2、优化WEBUI模型列表显示与切换的控制逻辑
											
										
										
											2023-09-16 07:15:08 +08:00
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								def stop_llm_model(
 								    model_name: str = Body(..., description="要停止的LLM模型名称", examples=[LLM_MODEL]),
 								    controller_address: str = Body(None, description="Fastchat controller服务器地址", examples=[fschat_controller_address()])
 								) -> BaseResponse:
 								    '''
 								    向fastchat controller请求停止某个LLM模型。
 								    注意：由于Fastchat的实现方式，实际上是把LLM模型所在的model_worker停掉。
 								    '''
 								    try:
 								        controller_address = controller_address or fschat_controller_address()
-												将所有httpx请求改为使用Client，提高效率，方便以后设置代理等。 (#1554)

将所有httpx请求改为使用Client，提高效率，方便以后设置代理等。

将本项目相关服务加入无代理列表，避免fastchat的服务器请求错误。(windows下无效)
											
										
										
											2023-09-21 15:19:51 +08:00
+								        with get_httpx_client() as client:
 								            r = client.post(
 								                controller_address + "/release_worker",
 								                json={"model_name": model_name},
 								            )
 								            return r.json()
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								    except Exception as e:
 								        logger.error(f'{e.__class__.__name__}: {e}',
 								                        exc_info=e if log_verbose else None)
 								        return BaseResponse(
 								            code=500,
 								            msg=f"failed to stop LLM model {model_name} from controller: {controller_address}。错误信息是： {e}")
 								def change_llm_model(
 								    model_name: str = Body(..., description="当前运行模型", examples=[LLM_MODEL]),
 								    new_model_name: str = Body(..., description="要切换的新模型", examples=[LLM_MODEL]),
 								    controller_address: str = Body(None, description="Fastchat controller服务器地址", examples=[fschat_controller_address()])
-												use multiprocessing to run fastchat server

											
										
										
											2023-07-29 23:01:24 +08:00
+								):
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								    '''
 								    向fastchat controller请求切换LLM模型。
 								    '''
 								    try:
 								        controller_address = controller_address or fschat_controller_address()
-												将所有httpx请求改为使用Client，提高效率，方便以后设置代理等。 (#1554)

将所有httpx请求改为使用Client，提高效率，方便以后设置代理等。

将本项目相关服务加入无代理列表，避免fastchat的服务器请求错误。(windows下无效)
											
										
										
											2023-09-21 15:19:51 +08:00
+								        with get_httpx_client() as client:
 								            r = client.post(
 								                controller_address + "/release_worker",
 								                json={"model_name": model_name, "new_model_name": new_model_name},
 								                timeout=HTTPX_DEFAULT_TIMEOUT, # wait for new worker_model
 								            )
 								            return r.json()
-												修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434)

* 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS

* 知识库相关API接口支持多线程并发

* 根据新的API接口调整ApiRequest和测试用例

* 删除webui.py失效的启动说明
											
										
										
											2023-09-11 20:41:41 +08:00
+								    except Exception as e:
 								        logger.error(f'{e.__class__.__name__}: {e}',
 								                        exc_info=e if log_verbose else None)
 								        return BaseResponse(
 								            code=500,
 								            msg=f"failed to switch LLM model from controller: {controller_address}。错误信息是： {e}")
-												实现Api和WEBUI的前后端分离 (#1772)

* update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用
* 实现API和WEBUI的分离：
- API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用
- 服务器可用的搜索引擎通过/server/list_search_engines提供
- WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型
- 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取
- 删除knowledge_base_chat中`local_doc_url`参数

其它修改：
- 删除多余的kb_config.py.exmaple(名称错误)
- server_config中默认关闭vllm
- server_config中默认注释除智谱AI之外的在线模型
- 修改requests从系统获取的代理，避免model worker注册错误

* 修正：
- api.list_config_models返回模型原始配置
- api.list_config_models和api.get_model_config中过滤online api模型的敏感信息
- 将GPT等直接访问的模型列入WEBUI可选模型列表

其它：
- 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30
											
										
										
											2023-10-17 16:52:07 +08:00
 								def list_search_engines() -> BaseResponse:
 								    from server.chat.search_engine_chat import SEARCH_ENGINES
 								    return BaseResponse(data=list(SEARCH_ENGINES))