Langchain-Chatchat

Commit Graph

Author	SHA1	Message	Date
liunux4odoo	9c525b7fa5	publish 0.2.10 (#2797 ) 新功能： - 优化 PDF 文件的 OCR，过滤无意义的小图片 by @liunux4odoo #2525 - 支持 Gemini 在线模型 by @yhfgyyf #2630 - 支持 GLM4 在线模型 by @zRzRzRzRzRzRzR - elasticsearch更新https连接 by @xldistance #2390 - 增强对PPT、DOC知识库文件的OCR识别 by @596192804 #2013 - 更新 Agent 对话功能 by @zRzRzRzRzRzRzR - 每次创建对象时从连接池获取连接，避免每次执行方法时都新建连接 by @Lijia0 #2480 - 实现 ChatOpenAI 判断token有没有超过模型的context上下文长度 by @glide-the - 更新运行数据库报错和项目里程碑 by @zRzRzRzRzRzRzR #2659 - 更新配置文件/文档/依赖 by @imClumsyPanda @zRzRzRzRzRzRzR - 添加日文版 readme by @eltociear #2787 修复： - langchain 更新后，PGVector 向量库连接错误 by @HALIndex #2591 - Minimax's model worker 错误 by @xyhshen - ES库无法向量检索.添加mappings创建向量索引 by MSZheng20 #2688	2024-01-26 06:58:49 +08:00
天地	3da68b5ce3	删除重复的引入和纠正拼写错误 (#2599 ) * 1.删除重复的引入 2.拼写错误 * 1.参数或者文档拼写错误纠正 2.doc下的faq、install已经删除，更新为ES部署指南，考虑到doc下的文档经常更新，即使扫描doc文件夹，也可能为空的情况，readme.md大概率不会删除。	2024-01-11 18:45:09 +08:00
liunux4odoo	c179230ce0	remove /chat/fastchat API endpoint (#2506 )	2023-12-29 09:44:37 +08:00
zR	2e1442a5c1	修复 Langchain 更新之后OpenAI在线embed无法正常使用问题	2023-12-23 11:36:11 +08:00
liunux4odoo	472a97a616	所有 chat 接口都改为 EventSourceResponse；ApiRequest 作对应修改	2023-12-13 16:53:24 +08:00
glide-the	279ffdf117	单个知识库根据doc_ids摘要	2023-11-25 23:31:13 +08:00
glide-the	248db46187	Merge branch 'dev_summary' into dev_command_summary 实现summary_chunk 文档分段总结业务实现使用 MapReduceDocumentsChain 生成摘要 # Conflicts: # server/api.py # server/knowledge_base/kb_doc_api.py # server/knowledge_base/kb_service/base.py # server/knowledge_base/migrate.py	2023-11-25 22:30:41 +08:00
liunux4odoo	1de4258aa0	给 ApiModelWorker 添加 logger 成员变量，API请求出错时输出有意义的错误信息。 (#2169 ) * 给 ApiModelWorker 添加 logger 成员变量，API请求出错时输出有意义的错误信息。 /chat/chat 接口 conversation_id参数改为默认 ""，避免 swagger 页面默认值错误导致历史消息失效 * 修复在线模型一些bug	2023-11-25 13:51:07 +08:00
liunux4odoo	aae4144476	数据库和向量库中文档 metadata["source"] 改为相对路径，便于向量库迁移 (#2153 ) 修复： - 上传知识库文件名称包括子目录时，自动创建子目录	2023-11-23 19:54:00 +08:00
liunux4odoo	fbe214471b	知识库支持 .jsonl, .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件 (#2079 ) * 知识库支持行式 json 文件如果要使用 json 文件，需要 `conda install jq`（windows 下 pip install jq 会失败）开发者：删除 CustomJsonLoader，使用 langchain 自带的 JsonLoader 处理 json 文件，添加 JsonLinesLoader 处理 jsonl 文件。 * 知识库支持 .epub, .xlsx, .xlsd, .ipynb, .odt, .py, .srt, .toml, .doc, .ppt 文件为 .eml, .msg, .rst, .rtf, .tsv, .docx, .xml, .pptx 指定专用加载器	2023-11-16 09:37:09 +08:00
liunux4odoo	b51ba11f45	支持通过配置项同时启动多个模型，将Wiki纳入samples知识库 (#2002 ) 新功能： - 将 LLM_MODEL 配置项改为 LLM_MODELS 列表，同时启动多个模型 - 将 wiki 纳入 samples 知识库依赖变化： - 指定 streamlit~=1.27.0。1.26.0会报rerun错误，1.28.0会有无限刷新错误修复优化： - 优化 get_default_llm_model 逻辑 - 适配 Qwen 在线 API 做 Embeddings 时最大 25 行的限制 - 列出知识库磁盘文件时跳过 . 开头的文件	2023-11-09 22:15:52 +08:00
WilliamChen-luckbob	ce1001a043	bugfix:dev分支创建知识库必然失败的bug修复 (#1980 ) * bugfix:dev分支创建知识库必然失败的bug修复 * 统一 KBServiceFactory.get_service_by_name 的逻辑，数据库中不存在知识库时返回 None --------- Co-authored-by: liunux4odoo <liunux@qq.com>	2023-11-09 17:45:21 +08:00
liunux4odoo	deed92169f	支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api (#1907 ) * 新功能： - 支持在线 Embeddings：zhipu-api, qwen-api, minimax-api, qianfan-api - API 增加 /other/embed_texts 接口 - init_database.py 增加 --embed-model 参数，可以指定使用的嵌入模型（本地或在线均可）问题修复： - API 中 list_config_models 会删除 ONLINE_LLM_MODEL 中的敏感信息，导致第二轮API请求错误开发者： - 优化 kb_service 中 Embeddings 操作： - 统一加载接口： server.utils.load_embeddings，利用全局缓存避免各处 Embeddings 传参 - 统一文本嵌入接口：server.embedding_api.[embed_texts, embed_documents]	2023-10-28 23:37:30 +08:00
liunux4odoo	b4c68ddd05	优化在线 API ，支持 completion 和 embedding，简化在线 API 开发方式 (#1886 ) * 优化在线 API ，支持 completion 和 embedding，简化在线 API 开发方式新功能 - 智谱AI、Minimax、千帆、千问 4 个在线模型支持 embeddings（不通过Fastchat，后续会单独提供相关api接口） - 在线模型自动检测传入参数，在传入非 messages 格式的 prompt 时，自动转换为 completion 形式，以支持 completion 接口开发者： - 重构ApiModelWorker: - 所有在线 API 请求封装到 do_chat 方法：自动传入参数 ApiChatParams，简化参数与配置项的获取；自动处理与fastchat的接口 - 加强 API 请求错误处理，返回更有意义的信息 - 改用 qianfan sdk 重写 qianfan-api - 将所有在线模型的测试用例统一在一起，简化测试用例编写 * Delete requirements_langflow.txt	2023-10-26 22:44:48 +08:00
zR	35a7ca74c0	Azure 的fschat支持，弃用Langchain-MODEL (#1873 ) * 支持了agentlm * 支持了agentlm和相关提示词 * 修改了Agent的一些功能，加入了Embed方面的一个优化 * 修改了部分Agent的工具 * 增加一些Langchain的自带工具 * 修复一些兼容性的bug * 恢复知识库 * 恢复知识库 * 修复Azure问题	2023-10-25 21:32:40 +08:00
liunux4odoo	27418ba9fa	fix bug, add dependencies: strsimpy, markdownify	2023-10-25 08:58:31 +08:00
liunux4odoo	03e55e11c4	支持lite模式：无需安装torch等重依赖，通过在线API实现LLM对话和搜索引擎对话 (#1860 ) * move get_default_llm_model from webui to ApiRequest 增加API接口及其测试用例： - /server/get_prompt_template: 获取服务器配置的 prompt 模板 - 增加知识库多线程访问测试用例支持lite模式：无需安装torch等重依赖，通过在线API实现LLM对话和搜索引擎对话 * fix bug in server.api --------- Co-authored-by: imClumsyPanda <littlepanda0716@gmail.com>	2023-10-25 08:30:23 +08:00
liunux4odoo	1d9d9df9e9	update baichuan-api: 修正messages参数；支持流式；添加测试用例	2023-10-20 19:09:05 +08:00
zR	69e5da4e7a	北京黑客松更新 (#1785 ) * 北京黑客松更新知识库支持：支持zilliz数据库 Agent支持：支持以下工具调用 1. 支持互联网Agent调用 2. 支持知识库Agent调用 3. 支持旅游助手工具(未上传）知识库更新 1. 支持知识库简介，用于Agent选择 2. UI对应知识库简介提示词选择 1. UI 和模板支持提示词模板更换选择	2023-10-18 15:19:02 +08:00
liunux4odoo	9ce328fea9	实现Api和WEBUI的前后端分离 (#1772 ) * update ApiRequest: 删除no_remote_api本地调用模式；支持同步/异步调用 * 实现API和WEBUI的分离： - API运行服务器上的配置通过/llm_model/get_model_config、/server/configs接口提供，WEBUI运行机器上的配置项仅作为代码内部默认值使用 - 服务器可用的搜索引擎通过/server/list_search_engines提供 - WEBUI可选LLM列表中只列出在FSCHAT_MODEL_WORKERS中配置的模型 - 修改WEBUI中默认LLM_MODEL获取方式，改为从api端读取 - 删除knowledge_base_chat中`local_doc_url`参数其它修改： - 删除多余的kb_config.py.exmaple(名称错误) - server_config中默认关闭vllm - server_config中默认注释除智谱AI之外的在线模型 - 修改requests从系统获取的代理，避免model worker注册错误 * 修正： - api.list_config_models返回模型原始配置 - api.list_config_models和api.get_model_config中过滤online api模型的敏感信息 - 将GPT等直接访问的模型列入WEBUI可选模型列表其它： - 指定langchain==0.3.313, fschat==0.2.30, langchain-experimental==0.0.30	2023-10-17 16:52:07 +08:00
liunux4odoo	b3c7f8b072	修复webui中重建知识库以及对话界面UI错误 (#1615 ) * 修复bug:webui点重建知识库时，如果存在不支持的文件会导致整个接口错误;migrate中没有导入CHUNK_SIZE * 修复：webui对话界面的expander一直为running状态；简化历史消息获取方法	2023-09-28 15:12:03 +08:00
liunux4odoo	8d0f8a5d67	fix: langchain warnings for import from root	2023-09-27 21:55:02 +08:00
Leego	9bcce0a572	【功能新增】在线 LLM 模型支持阿里云通义千问 (#1534 ) * feat: add qwen-api * 使Qwen API支持temperature参数；添加测试用例 * 将online-api的sdk列为可选依赖 --------- Co-authored-by: liunux4odoo <liunux@qq.com>	2023-09-20 21:34:12 +08:00
liunux4odoo	ec85cd1954	move wrap_done & get_ChatOpenAI from server.chat.utils to server.utils (#1506 )	2023-09-17 16:19:50 +08:00
liunux4odoo	a65bc4a63c	添加configs/prompt_config.py，允许用户自定义prompt模板： (#1504 ) 1、默认包含2个模板，分别用于LLM对话，知识库和搜索引擎对话 2、 server/utils.py提供函数get_prompt_template，获取指定的prompt模板内容（支持热加载） 3、 api.py中chat/knowledge_base_chat/search_engine_chat接口支持prompt_name参数	2023-09-17 13:27:11 +08:00
zR	598eb298df	第一版初步agent实现 (#1503 ) * 第一版初步agent实现 * 增加steaming参数 * 修改了weather.py --------- Co-authored-by: zR <zRzRzRzRzRzRzR>	2023-09-17 11:19:16 +08:00
liunux4odoo	9a7beef270	使火山方舟正常工作，添加错误处理和测试用例	2023-09-17 00:21:13 +08:00
liunux4odoo	745a105bae	feat: support volc fangzhou	2023-09-16 22:21:16 +08:00
liunux4odoo	f7c73b842a	优化configs (#1474 ) * remove llm_model_dict * optimize configs * fix get_model_path * 更改一些默认参数，添加千帆的默认配置 * Update server_config.py.example	2023-09-15 17:52:22 +08:00
liunux4odoo	4cf2e5ea5e	修复文心一言，添加测试用例	2023-09-14 23:37:34 +08:00
imClumsyPanda	fbaca1009e	update requirements.txt, requirements_api.txt, test_different_splitter.py and chinese_recursive_text_splitter.py	2023-09-14 22:59:05 +08:00
zR	769d75d784	修复测试文件 (#1467 ) Co-authored-by: zR <zRzRzRzRzRzRzR>	2023-09-13 17:12:05 +08:00
imClumsyPanda	dc413120e2	update text splitter unit test name	2023-09-13 15:53:07 +08:00
imClumsyPanda	f75812afcb	update text splitter unit test name	2023-09-13 15:47:34 +08:00
zR	bfdbe69fa1	增加了自定义分词器适配 (#1462 ) * 添加了自定义分词器适配和测试文件 --------- Co-authored-by: zR <zRzRzRzRzRzRzR>	2023-09-13 15:42:12 +08:00
liunux4odoo	8b040620de	对话接口支持temperature参数 (#1455 )	2023-09-13 10:00:54 +08:00
liunux4odoo	a03b8d330d	升级到langchain==0.0.287,fschat==0.0.28;处理langchain.Milvus bug(#10492 ) (#1454 ) * 修复milvus_kb_service中一些bug，添加文档后将数据同步到数据库 * 升级到langchain==0.0.287,fschat==0.0.28;处理langchain.Milvus bug(#10492) * 修复切换模型BUG: 从在线API切换模型时出错	2023-09-13 08:43:11 +08:00
liunux4odoo	22ff073309	修改Embeddings和FAISS缓存加载方式，知识库相关API接口支持多线程并发 (#1434 ) * 修改Embeddings和FAISS缓存加载方式，支持多线程，支持内存FAISS * 知识库相关API接口支持多线程并发 * 根据新的API接口调整ApiRequest和测试用例 * 删除webui.py失效的启动说明	2023-09-11 20:41:41 +08:00
liunux4odoo	1195eb75eb	merge pr1413	2023-09-08 10:30:07 +08:00
liunux4odoo	4cfee9c17c	根据新的接口修改ApiRequest和webui，以及测试用例。修改后预期webui中批量知识文件相关操作减少时间	2023-09-08 10:22:04 +08:00
liunux4odoo	661a0e9d72	新功能: - 知识库管理中的add_docs/delete_docs/update_docs均支持批量操作，并利用多线程提高效率 - API的重建知识库接口支持多线程 - add_docs可提供参数控制上传文件后是否继续进行向量化 - add_docs/update_docs支持传入自定义docs(以json形式)。后续考虑区分完整或补充式自定义docs - download_doc接口添加`preview`参数，支持下载或预览 - kb_service增加`save_vector_store`方法，便于保存向量库（仅FAISS，其它无操作） - 将document_loader & text_splitter逻辑从KnowledgeFile中抽离出来，为后续对内存文件进行向量化做准备 - KowledgeFile支持docs & splitted_docs的缓存，方便在中间过程做一些自定义其它： - 将部分错误输出由print改为logger.error	2023-09-08 08:55:12 +08:00
imClumsyPanda	0ea18314f2	fix unit test name	2023-09-05 21:08:02 +08:00
imClumsyPanda	4fae7d4884	add unit test for RapidOCRLoader and RapidOCRPDFLoader	2023-09-03 16:13:37 +08:00
liunux4odoo	6cb1bdf623	添加切换模型功能，支持智谱AI在线模型 (#1342 ) * 添加LLM模型切换功能，需要在server_config中设置可切换的模型 * add tests for api.py/llm_model/* * - 支持模型切换 - 支持智普AI线上模型 - startup.py增加参数`--api-worker`，自动运行所有的线上API模型。使用`-a (--all-webui), --all-api`时默认开启该选项 * 修复被fastchat覆盖的标准输出 * 对fastchat日志进行更细致的控制，startup.py中增加-q(--quiet)开关，可以减少无用的fastchat日志输出 * 修正chatglm api的对话模板 Co-authored-by: liunux4odoo <liunu@qq.com>	2023-09-01 23:58:09 +08:00
imClumsyPanda	6c4ef26e9a	add RapidOCRPDFLoader and RapidOCRLoader (#1275 ) * add RapidOCRPDFLoader * update mypdfloader.py and requirements.txt * add myimgloader.py * add test samples * add TODO to mypdfloader * add loaders to KnowledgeFile class * add loaders to KnowledgeFile class	2023-09-01 10:23:57 +08:00
zqt	215bc25f5c	添加知识库使用的向量库测试用例	2023-08-29 15:01:26 +08:00
liunux4odoo	34a416b941	优化server_config配置项 (#1293 ) * update server_config.py: - 在model_config中增加HISTORY_LEN配置参数 - 将server_config中helper function移动到server.utils中 - 统一set_httpx_timeout的定义和调用 * update webui.py: 应用model_config中的配置项：HISTORY_LEN,VECTOR_SEARCH_TOP_K,SEARCH_ENGINE_TOP_K --------- Co-authored-by: liunux4odoo <liunu@qq.com>	2023-08-29 10:06:09 +08:00
liunux4odoo	3acbf4d5d1	增加数据库字段，重建知识库使用多线程 (#1280 ) * close #1172: 给webui_page/utils添加一些log信息，方便定位错误 * 修复：重建知识库时页面未实时显示进度 * skip model_worker running when using online model api such as chatgpt * 修改知识库管理相关内容: 1.KnowledgeFileModel增加3个字段：file_mtime(文件修改时间),file_size(文件大小),custom_docs(是否使用自定义docs)。为后面比对上传文件做准备。 2.给所有String字段加上长度，防止mysql建表错误(pr#1177) 3.统一[faiss/milvus/pgvector]_kb_service.add_doc接口，使其支持自定义docs 4.为faiss_kb_service增加一些方法，便于调用 5.为KnowledgeFile增加一些方法，便于获取文件信息，缓存file2text的结果。 * 修复/chat/fastchat无法流式输出的问题 * 新增功能： 1、KnowledgeFileModel增加"docs_count"字段，代表该文件加载到向量库中的Document数量，并在WEBUI中进行展示。 2、重建知识库`python init_database.py --recreate-vs`支持多线程。其它：统一代码中知识库相关函数用词：file代表一个文件名称或路径，doc代表langchain加载后的Document。部分与API接口有关或含义重叠的函数暂未修改。 --------- Co-authored-by: liunux4odoo <liunux@qq.com>, hongkong9771	2023-08-28 13:50:35 +08:00
liunux4odoo	447b370416	在search_engine_chat中检查Bing KEY，并更新tests	2023-08-25 10:58:40 +08:00
liunux4odoo	150a78bfd9	update kb_doc_api:make faiss cache working; delete vector store docs before add duplicate docs	2023-08-20 16:52:49 +08:00

1 2

53 Commits