Langchain-Chatchat/markdown_docs/document_loaders/mydocloader.md

7.5 KiB
Raw Blame History

ClassDef RapidOCRDocLoader

RapidOCRDocLoader: RapidOCRDocLoader的功能是从Word文档中提取文本和图片内容并使用OCR技术转换图片中的文本。

属性:

  • 无特定公开属性,此类主要通过继承和方法实现功能。

代码描述: RapidOCRDocLoader类继承自UnstructuredFileLoader专门用于处理Word文档(.docx)文件,提取其中的文本和图片内容。它通过定义一个内部函数_get_elements来实现这一功能。该函数首先定义了一个辅助函数doc2text用于打开和解析Word文档然后提取文档中的文本和图片内容。

doc2text函数中使用了python-docx库来遍历文档中的所有段落和表格。对于文档中的每个段落直接提取其文本内容对于表格遍历每个单元格并提取其中的文本。此外对于段落中包含的图片使用了PIL库和RapidOCR库来识别图片中的文本。

RapidOCR是一个基于ONNX Runtime的OCR工具能够从图片中识别文本。在本类中对于每个找到的图片首先将其转换为numpy数组然后使用RapidOCR进行文本识别最后将识别的文本添加到响应字符串中。

最终,_get_elements函数通过调用doc2text函数获取文档中的所有文本包括OCR识别的文本然后使用partition_text函数对文本进行分段处理,返回处理后的文本列表。

注意:

  • 使用RapidOCRDocLoader类之前需要确保已安装python-docx、PIL、numpy和rapidocr_onnxruntime等依赖库。
  • 该类专门处理.docx格式的Word文档不适用于其他类型的文档或图片文件。
  • OCR识别准确度受到图片质量的影响对于低分辨率或图文混排的图片识别结果可能不理想。

输出示例: 假设一个Word文档包含以下内容

  • 文本段落:“这是一个示例文档。”
  • 包含文本的图片:图片中的文本为“图片中的示例文本”。

使用RapidOCRDocLoader处理该文档后可能的返回值为

["这是一个示例文档。", "图片中的示例文本。"]

这个返回值是一个列表包含了文档中所有文本内容包括通过OCR技术识别出的图片中的文本。

FunctionDef _get_elements(self)

_get_elements: 此函数的功能是从给定的Word文档中提取文本和图片内容并将图片内容通过OCR技术转换为文本最后将所有文本内容进行结构化分割。

参数: 此函数没有显式参数,但依赖于self.file_pathself.unstructured_kwargs两个对象属性。

  • self.file_path: 需要处理的Word文档的路径。
  • self.unstructured_kwargs: 用于文本结构化分割的参数。

代码描述:

  1. _get_elements函数首先定义了一个内部函数doc2text用于将Word文档转换为文本。
  2. doc2text函数利用python-docx库来解析Word文档通过迭代文档中的段落和表格来提取文本内容。
  3. 对于文档中的图片,doc2text使用xpath来定位,并通过PIL库和ImagePart来读取图片内容。然后,使用RapidOCR库将图片内容转换为文本。
  4. 文档中的文本和通过OCR转换得到的文本被累加到一个字符串中。
  5. 使用tqdm库来显示处理进度,提高用户体验。
  6. _get_elements函数通过调用doc2text函数获取文本内容,然后使用partition_text函数对文本进行结构化分割,分割依据是self.unstructured_kwargs中的参数。
  7. 最终,函数返回一个包含分割后文本块的列表。

注意:

  • 确保self.file_path指向的是一个有效的Word文档路径。
  • OCR转换对图片质量有一定要求图片质量过低可能影响识别结果。
  • self.unstructured_kwargs参数需要正确配置以适应不同的文本结构化需求。

输出示例:

[
    "这是文档的第一部分文本。",
    "这是从图片中通过OCR技术识别出的文本。",
    "这是文档的另一部分文本。"
]

此输出示例展示了函数可能返回的分割后的文本块列表包括直接从Word文档中提取的文本和通过OCR技术从图片中识别出的文本。

FunctionDef doc2text(filepath)

doc2text: 该函数的功能是将Word文档中的文本和图片内容转换为纯文本字符串。

参数:

  • filepath: Word文档的文件路径。

代码描述: doc2text函数首先导入了必要的库和模块包括处理Word文档的docx库,图像处理库PIL以及用于执行OCR光学字符识别rapidocr_onnxruntime库。函数接收一个文件路径作为参数用于指定需要转换的Word文档。

函数内部,首先使用Document类从给定的文件路径加载Word文档。然后定义了一个iter_block_items内部函数,用于遍历文档中的所有段落和表格。这个遍历过程利用了docx库的类型判断功能,以确定当前处理的是段落还是表格,并据此进行相应的处理。

在遍历文档内容的过程中,函数使用了ocr对象(由RapidOCR类实例化对文档中的图片进行OCR处理将图片中的文本转换为可读的字符串。对于文档中的文本内容直接将其文本值添加到响应字符串中。

此外,函数还处理了文档中的表格,遍历每个表格中的行和单元格,将单元格中的文本内容提取出来,同样添加到响应字符串中。

最后,函数返回一个包含了文档中所有文本内容和图片中识别出的文本内容的字符串。

注意:

  • 该函数依赖于docxPILrapidocr_onnxruntime等库,使用前需要确保这些库已正确安装。
  • OCR处理可能不会100%准确,特别是对于图像质量较低或字体较小的图片,识别结果可能会有误差。
  • 函数的性能包括OCR处理时间会受到文档大小和内容复杂度的影响。

输出示例:

这是文档中的一段文本。

这是从文档中的一张图片中识别出的文本。
FunctionDef iter_block_items(parent)

iter_block_items: 此函数的功能是遍历并生成文档中的段落和表格对象。

参数:

  • parent: 可以是Document对象或_Cell对象,表示要遍历的文档或单元格。

代码描述: iter_block_items函数是用于从Word文档中提取段落和表格的迭代器。它首先判断传入的parent参数类型。如果parentDocument类型,即整个文档,它会获取文档的主体部分。如果parent_Cell类型,即表格中的单元格,它会获取该单元格的内容。函数通过遍历parent_elm的子元素,根据子元素的类型(段落或表格),生成对应的ParagraphTable对象并返回。

在遍历过程中,使用isinstance函数检查每个子元素的类型。如果子元素是CT_P类型,表示它是一个段落,则创建并返回一个Paragraph对象。如果子元素是CT_Tbl类型,表示它是一个表格,则创建并返回一个Table对象。这样,使用此函数可以方便地从文档中提取出所有的段落和表格,以便进一步处理。

注意:

  • 传入的parent参数必须是Document_Cell类型,否则函数会抛出ValueError异常,提示"RapidOCRDocLoader parse fail"。
  • 此函数依赖于docx.document.Document_CellCT_P(段落类型)和CT_Tbl(表格类型)等类,因此在使用前需要确保这些类已正确导入和定义。
  • 生成的ParagraphTable对象可以用于进一步的文本提取或格式化操作,但需要注意处理它们的方法可能依赖于具体的实现细节。