Langchain-Chatchat/markdown_docs/document_loaders/mypdfloader.md

7.9 KiB
Raw Permalink Blame History

ClassDef RapidOCRPDFLoader

RapidOCRPDFLoader: RapidOCRPDFLoader的功能是从PDF文件中提取文本和图片内容并通过OCR技术将图片内容转换为文本。

属性:

  • 无特定公开属性,该类主要通过方法实现功能。

代码描述: RapidOCRPDFLoader类继承自UnstructuredFileLoader专门用于处理PDF文件的加载和内容提取。该类通过定义的_get_elements方法实现了从PDF中提取文本和图片的功能并且能够处理图片的旋转和OCR识别最终将识别的文本内容进行结构化处理。

_get_elements方法中,首先定义了rotate_img函数用于处理图片旋转,接着定义了pdf2text函数用于将PDF文件中的文本和图片内容提取出来。pdf2text函数使用了fitz库pyMuPDF来打开和处理PDF文件通过遍历每一页提取页面文本和图片信息。对于图片内容首先检查图片尺寸是否超过设定的阈值然后根据页面的旋转角度决定是否需要旋转图片最后使用OCR技术将图片内容转换为文本。

该类的使用场景在于需要从PDF文件中提取文本信息同时也需要处理PDF中的图片内容尤其是当图片中包含了重要的文本信息时。通过OCR技术可以将这些图片中的文本信息转换为可读的文本格式进一步增强文本提取的准确性和完整性。

注意:

  • 使用RapidOCRPDFLoader类之前需要确保已经安装了fitzpyMuPDF库和OpenCV库因为这两个库是处理PDF文件和图片旋转的关键。
  • OCR技术的准确性受到图片质量的影响因此在处理高度压缩或质量较低的图片时OCR的结果可能不够理想。
  • 该类在处理大型PDF文件时可能会消耗较多的计算资源因此在资源受限的环境下使用时需要注意。

输出示例: 假设处理一个包含文本和图片的PDF文件RapidOCRPDFLoader可能会返回如下格式的文本内容

第一页文本内容...
图片1识别的文本内容...
图片2识别的文本内容...
第二页文本内容...
图片3识别的文本内容...
...

这个输出示例展示了RapidOCRPDFLoader如何将PDF文件中的文本和图片内容结合起来提供一个连续的文本流便于后续的处理和分析。

FunctionDef _get_elements(self)

_get_elements: 该函数的功能是从PDF文件中提取文本和图像内容并对图像进行OCR识别最后将识别的文本内容进行结构化处理。

参数: 此函数没有直接的参数,它通过类的实例访问成员变量。

代码描述:

  • _get_elements 函数首先定义了两个内部函数:rotate_imgpdf2text
  • rotate_img 函数用于旋转图像接受图像和旋转角度作为参数返回旋转后的图像。它通过OpenCV库计算旋转矩阵并应用于输入图像以获得旋转后的图像。
  • pdf2text 函数负责将PDF文件的内容转换为文本。它使用fitz即PyMuPDF打开PDF文件遍历每一页提取文本内容并使用进度条tqdm库)显示处理进度。对于每个页面上的图像,如果图像的尺寸超过了设定的阈值(PDF_OCR_THRESHOLD则使用OCR光学字符识别技术识别图像中的文本。如果页面有旋转则先对图像进行旋转校正再进行OCR识别。
  • 在提取完所有页面的文本和图像内容后,_get_elements 函数使用partition_text函数对提取到的文本进行结构化处理,以便于后续的数据处理和分析。

注意:

  • 本函数依赖于OpenCV和PyMuPDF库进行图像处理和PDF文件的读取需要确保这些库已正确安装和配置。
  • OCR识别的准确性受到图像质量的影响图像的清晰度和旋转校正的准确性对识别结果有重要影响。
  • 函数中使用的PDF_OCR_THRESHOLD变量需要根据实际情况进行调整以优化OCR识别的效果和性能。

输出示例: 由于_get_elements函数的输出依赖于输入的PDF文件内容和OCR识别的结果因此无法提供一个固定的输出示例。通常该函数会返回一个包含结构化文本内容的列表列表中的每个元素代表PDF中的一段文本内容这些内容已经过OCR识别和结构化处理。

FunctionDef rotate_img(img, angle)

rotate_img: 该函数的功能是旋转图像。

参数:

  • img: 待旋转的图像。
  • angle: 旋转角度,正值表示逆时针旋转,负值表示顺时针旋转。

代码描述: rotate_img 函数接收一个图像和一个旋转角度作为输入,返回旋转后的图像。首先,它计算图像的高度和宽度,然后确定旋转中心,即图像的中心点。接着,使用 cv2.getRotationMatrix2D 方法获取旋转矩阵该方法需要旋转中心、旋转角度和缩放比例本例中为1.0,表示保持原始大小)作为输入。然后,计算旋转后图像的新边界,以确保旋转后的图像不会丢失任何部分。最后,通过调整旋转矩阵中的平移参数,使用 cv2.warpAffine 方法应用旋转矩阵,得到旋转后的图像并返回。

在项目中,rotate_img 函数被 pdf2text 函数调用用于处理PDF文档中的图像。当PDF页面有旋转角度时pdf2text 函数会提取页面中的图像,然后调用 rotate_img 函数将图像旋转回正常的方向以便进行后续的OCR光学字符识别处理。这样可以确保OCR处理的准确性特别是在处理扫描文档和图像密集型PDF文件时。

注意:

  • 在使用 cv2.getRotationMatrix2Dcv2.warpAffine 方法时需要确保已经导入了OpenCV库即cv2
  • 旋转图像可能会导致图像边缘的一部分被裁剪。因此,计算新边界并调整平移参数是确保图像完整性的关键步骤。

输出示例: 假设有一个图像 img 和旋转角度 angle=90,调用 rotate_img(img, 90)将返回一个新的图像其中原始图像已经逆时针旋转了90度。


FunctionDef pdf2text(filepath)

pdf2text: 该函数的功能是将PDF文件中的文本和图片内容转换为文本格式。

参数:

  • filepath: PDF文件的路径。

代码描述: pdf2text 函数首先导入必要的库,包括fitz用于处理PDF文件numpy(用于处理图像数据)。然后,它调用get_ocr函数获取OCR对象用于后续的图像文字识别。通过打开指定路径的PDF文件函数遍历每一页使用fitz库提取页面上的文本内容,并将其累加到响应字符串中。

对于每个页面上的图像,函数通过get_image_info方法获取图像信息,并检查每个图像的尺寸是否超过预设的阈值(PDF_OCR_THRESHOLD)。如果图像尺寸合适,函数将使用fitz.Pixmap读取图像数据。如果页面有旋转角度,函数会调用rotate_img函数将图像旋转回正常方向以确保OCR的准确性。随后使用OCR对象对图像进行文字识别并将识别结果添加到响应字符串中。

整个过程中,使用tqdm库显示处理进度,为用户提供友好的进度反馈。

注意:

  • 确保安装了fitz(也就是PyMuPDF)、numpytqdm等库。
  • PDF_OCR_THRESHOLD是一个预设的阈值用于决定哪些图像需要进行OCR处理。该阈值需要根据实际情况进行调整。
  • 函数依赖于get_ocrrotate_img两个函数,确保这些依赖函数正确实现并可用。
  • 由于OCR处理可能耗时对于包含大量图像的PDF文件执行该函数可能需要较长时间。

输出示例: 调用pdf2text(filepath)函数后将返回一个字符串其中包含了PDF文件中所有页面的文本内容以及通过OCR识别的图像中的文字。例如如果PDF文件包含了文本“欢迎使用OCR”和一张包含文字“图像识别” 的图片函数将返回一个包含“欢迎使用OCR\n图像识别” 的字符串。