diff --git a/README.md b/README.md index 9a7afb4..993c8c7 100644 --- a/README.md +++ b/README.md @@ -82,6 +82,7 @@ docker run --gpus all -d --name chatglm -p 7860:7860 -v ~/github/langchain-ChatG 本项目已在 Python 3.8 - 3.10,CUDA 11.7 环境下完成测试。已在 Windows、ARM 架构的 macOS、Linux 系统中完成测试。 vue前端需要node18环境 + ### 从本地加载模型 请参考 [THUDM/ChatGLM-6B#从本地加载模型](https://github.com/THUDM/ChatGLM-6B#从本地加载模型) @@ -177,6 +178,7 @@ Web UI 可以实现如下功能: - [ ] Langchain 应用 - [x] 接入非结构化文档(已支持 md、pdf、docx、txt 文件格式) + - [x] jpg 与 png 格式图片的 OCR 文字识别 - [ ] 搜索引擎与本地网页接入 - [ ] 结构化数据接入(如 csv、Excel、SQL 等) - [ ] 知识图谱/图数据库接入 @@ -200,6 +202,7 @@ Web UI 可以实现如下功能: - [ ] 增加知识库管理 - [x] 选择知识库开始问答 - [x] 上传文件/文件夹至知识库 + - [x] 知识库测试 - [ ] 删除知识库中文件 - [ ] 利用 streamlit 实现 Web UI Demo - [ ] 增加 API 支持 diff --git a/docs/INSTALL.md b/docs/INSTALL.md index 5cf8433..48abee7 100644 --- a/docs/INSTALL.md +++ b/docs/INSTALL.md @@ -29,14 +29,14 @@ $ git clone https://github.com/imClumsyPanda/langchain-ChatGLM.git # 进入目录 $ cd langchain-ChatGLM -# 使用paddleocr需要卸载detectron2避免tools冲突 +# 项目中 pdf 加载由先前的 detectron2 替换为使用 paddleocr,如果之前有安装过 detectron2 需要先完成卸载避免引发 tools 冲突 $ pip uninstall detectron2 # 安装依赖 $ pip install -r requirements.txt # 验证paddleocr是否成功,首次运行会下载约18M模型到~/.paddleocr -$ python test_image.py +$ python loader/image_loader.py ``` 注:使用 `langchain.document_loaders.UnstructuredFileLoader` 进行非结构化文件接入时,可能需要依据文档进行其他依赖包的安装,请参考 [langchain 文档](https://python.langchain.com/en/latest/modules/indexes/document_loaders/examples/unstructured_file.html)。