func:pdf解析功能

2025-08-05 16:27:49 +08:00 · 2025-08-05 16:27:49 +08:00 · 14ac17ef63
parent 9e8215d888
commit 14ac17ef63
4 changed files with 261 additions and 0 deletions
--- a/document/sample_bidding_document.pdf
+++ b/document/sample_bidding_document.pdf
--- a/requirement.txt
+++ b/requirement.txt
@ -0,0 +1,108 @@
+aiohappyeyeballs==2.6.1
+aiohttp==3.12.15
+aiosignal==1.4.0
+annotated-types==0.7.0
+anyio==4.10.0
+astor==0.8.1
+async-timeout==4.0.3
+attrs==25.3.0
+beautifulsoup4==4.13.4
+cachetools==6.1.0
+certifi==2025.8.3
+chardet==5.2.0
+charset-normalizer==3.4.2
+colorlog==6.9.0
+cssselect==1.3.0
+cssutils==2.11.1
+dataclasses-json==0.6.7
+decorator==5.2.1
+distro==1.9.0
+einops==0.8.1
+et_xmlfile==2.0.0
+exceptiongroup==1.3.0
+filelock==3.18.0
+frozenlist==1.7.0
+fsspec==2025.7.0
+ftfy==6.3.1
+GPUtil==1.4.0
+greenlet==3.2.3
+h11==0.16.0
+hf-xet==1.1.5
+httpcore==1.0.9
+httpx==0.28.1
+httpx-sse==0.4.1
+huggingface-hub==0.34.3
+idna==3.10
+imagesize==1.4.1
+Jinja2==3.1.6
+jiter==0.10.0
+joblib==1.5.1
+jsonpatch==1.33
+jsonpointer==3.0.0
+langchain==0.3.27
+langchain-community==0.3.27
+langchain-core==0.3.72
+langchain-openai==0.3.28
+langchain-text-splitters==0.3.9
+langsmith==0.4.11
+lxml==6.0.0
+MarkupSafe==3.0.2
+marshmallow==3.26.1
+more-itertools==10.7.0
+multidict==6.6.3
+mypy_extensions==1.1.0
+networkx==3.4.2
+numpy==2.2.6
+openai==1.98.0
+opencv-contrib-python==4.10.0.84
+openpyxl==3.1.5
+opt-einsum==3.3.0
+orjson==3.11.1
+packaging==25.0
+paddleocr==3.1.0
+paddlepaddle==3.1.0
+paddlepaddle-gpu==2.6.2
+paddlex==3.1.3
+pandas==2.3.1
+pillow==11.3.0
+premailer==3.10.0
+prettytable==3.16.0
+propcache==0.3.2
+protobuf==6.31.1
+py-cpuinfo==9.0.0
+pyclipper==1.3.0.post6
+pydantic==2.11.7
+pydantic-settings==2.10.1
+pydantic_core==2.33.2
+PyMuPDF==1.26.3
+pypdfium2==4.30.0
+python-dateutil==2.9.0.post0
+python-dotenv==1.1.1
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.7.34
+requests==2.32.4
+requests-toolbelt==1.0.0
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+scikit-learn==1.7.1
+scipy==1.15.3
+shapely==2.1.1
+six==1.17.0
+sniffio==1.3.1
+soupsieve==2.7
+SQLAlchemy==2.0.42
+tenacity==9.1.2
+threadpoolctl==3.6.0
+tiktoken==0.9.0
+tokenizers==0.21.4
+tqdm==4.67.1
+typing-inspect==0.9.0
+typing-inspection==0.4.1
+typing_extensions==4.14.1
+tzdata==2025.2
+ujson==5.10.0
+urllib3==2.5.0
+wcwidth==0.2.13
+yarl==1.20.1
+zstandard==0.23.0
--- a/script/check_version.py
+++ b/script/check_version.py
@ -0,0 +1,16 @@
+# find_library_path.py
+import fitz
+import os
+
+try:
+    # __file__ 属性会告诉我们 fitz 模块的 __init__.py 文件在哪里
+    fitz_path = fitz.__file__
+    # os.path.dirname() 会给出该文件所在的目录
+    library_directory = os.path.dirname(fitz_path)
+    
+    print("--- PyMuPDF Library Location ---")
+    print(f"✅ PyMuPDF (fitz) is installed at: {library_directory}")
+    print("\n下一步：请您用 VS Code 的文件浏览器打开上面的路径。")
+
+except Exception as e:
+    print(f"❌ Could not locate the library. Error: {e}")
--- a/script/run_main.py
+++ b/script/run_main.py
@ -0,0 +1,137 @@
+import fitz  # PyMuPDF
+from paddleocr import PaddleOCR
+from PIL import Image
+import io
+import numpy as np
+from typing import List, Dict, Any
+import traceback
+import json
+import traceback
+import os
+
+class PaddlePdfProcessor:
+    """
+    一个基于 PaddleOCR 的健壮PDF处理器。
+    (最终版：适配 PyMuPDF, PaddlePaddle 3.x, 和 PaddleOCR 3.x API)
+    """
+
+    def __init__(self, pdf_path: str):
+        self.pdf_path = pdf_path
+        self.doc = fitz.open(pdf_path)
+        print("正在初始化 PaddleOCR 模型...")
+        self.ocr_engine = PaddleOCR(use_textline_orientation=True, lang='ch')
+        print("PaddleOCR 初始化完成。")
+
+    def process_page(self, page_num: int) -> List[Dict[str, Any]]:
+        page = self.doc[page_num - 1]
+        pix = page.get_pixmap(dpi=200) # type: ignore
+        img_bytes = pix.tobytes("png")
+        image = Image.open(io.BytesIO(img_bytes)).convert("RGB")
+        img_array = np.array(image)
+
+        result = self.ocr_engine.predict(input=img_array)
+        # result[0] 是一个 OCRResult 对象
+        structured_blocks = self._parse_paddle_result(result[0] if result else None, page_num)
+        return structured_blocks
+
+    def _parse_paddle_result(self, ocr_result, page_num: int) -> List[Dict[str, Any]]:
+        """
+        解析 PaddleOCR 3.x 返回的 OCRResult 对象。
+        """
+        blocks = []
+        # 如果 ocr_result 为 None 或为空，直接返回
+        if not ocr_result:
+            return blocks
+
+        # 从 OCRResult 对象中，通过键名提取三个平行的列表
+        boxes = ocr_result['dt_polys']
+        texts = ocr_result['rec_texts']
+        scores = ocr_result['rec_scores']
+
+        # 使用 zip() 函数同时遍历这三个列表
+        for box, text, score in zip(boxes, texts, scores):
+            # 将多边形坐标(box)转换为简单的矩形边界框(bbox)
+            # box 是一个 numpy 数组，形状类似 [[x1, y1], [x2, y2], [x3, y3], [x4, y4]]
+            x_coords = [p[0] for p in box]
+            y_coords = [p[1] for p in box]
+            bbox = [min(x_coords), min(y_coords), max(x_coords), max(y_coords)]
+            
+            blocks.append({
+                "type": "text",
+                "content": text,
+                "bbox": bbox,
+                "page_num": page_num,
+                "confidence": score
+            })
+        
+        # 按从上到下、从左到右的阅读顺序对文本块进行排序
+        return sorted(blocks, key=lambda b: (b['bbox'][1], b['bbox'][0]))
+
+    def process_all_pages(self) -> List[Dict[str, Any]]:
+        all_content_blocks = []
+        for i in range(len(self.doc)):
+            page_number = i + 1
+            print(f"--- 正在处理第 {page_number}/{len(self.doc)} 页 ---")
+            blocks = self.process_page(page_number)
+            all_content_blocks.extend(blocks)
+        return all_content_blocks
+
+    def close(self):
+        self.doc.close()
+
+# --- 主程序入口 ---
+# --- 主程序入口 (包含保存和加载逻辑) ---
+if __name__ == '__main__':
+    # 1. 定义输入和输出文件路径
+    pdf_path = "../document/sample_bidding_document.pdf"
+    # 我们将把解析结果保存到这个JSON文件中
+    parsed_output_path = "parsed_output.json"
+    
+    all_blocks = []
+
+    # 2. 检查解析结果是否已存在
+    if os.path.exists(parsed_output_path):
+        print(f"✅ 找到了已保存的解析结果 '{parsed_output_path}'，直接加载...")
+        with open(parsed_output_path, 'r', encoding='utf-8') as f:
+            all_blocks = json.load(f)
+    else:
+        print(f"未找到已保存的结果，启动完整的PDF解析流程...")
+        print(f"准备处理文件: {pdf_path}")
+        
+        try:
+            # 启动耗时的解析过程
+            processor = PaddlePdfProcessor(pdf_path)
+            all_blocks = processor.process_all_pages()
+            processor.close()
+            
+            # 3. 将新解析的结果保存到文件中，供下次使用
+            print(f"\n💾 正在将解析结果保存到 '{parsed_output_path}'...")
+            with open(parsed_output_path, 'w', encoding='utf-8') as f:
+                # indent=4 让JSON文件格式化，更易读
+                # ensure_ascii=False 确保中文字符能被正确写入
+                json.dump(all_blocks, f, indent=4, ensure_ascii=False)
+            print("保存成功！")
+            
+        except FileNotFoundError:
+            print(f"❌ 错误: 文件 '{pdf_path}' 未找到。")
+        except Exception as e:
+            print(f"❌ 程序在解析过程中发生严重错误: {e}")
+            traceback.print_exc()
+
+    # 4. 无论数据是加载的还是新生成的，都可以在这里进行后续处理
+    if all_blocks:
+        print("\n" + "="*50)
+        print(f"数据加载/处理完成，共获得 {len(all_blocks)} 个文本块。")
+        print("="*50)
+        
+        print("\n--- 处理结果预览 (前 5 个文本块) ---")
+        for block in all_blocks[:5]:
+            # 注意：json会把元组(tuple)存成列表(list)，所以bbox现在是列表
+            print(f"P{block['page_num']}: {block['content']} (置信度: {block['confidence']:.4f})")
+            
+        # 在这里调用您后续的分析函数，例如段落合并
+        # print("\n--- 开始进行段落合并 ---")
+        # paragraphs = assemble_paragraphs(all_blocks)
+        # ...
+    else:
+        print("未能获取任何文本块，程序结束。")