Fundreport Scrape — Fund报告 Scrape

v1.0.0

基金月报信息提取。支持文本+OCR 双重提取，自动处理双月对比。从 PDF 月报提取数据并填充 Excel 模板。

0· 340·0 当前·0 累计

by @imkiiki (ymzhang)·MIT-0

数据分析数据可视化文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install fundreport-scrape

镜像加速npx clawhub@latest install fundreport-scrape --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

基金月报信息提取

上传 Excel 模板和 PDF 月报，AI 自动提取数据（文本+OCR）并生成对比 Excel。

🌟 技能亮点文本+OCR 双重提取 - 图表数据不遗漏，识别准确率 95%+ 双月自动对比 - 一次处理两个月份，生成完整对比数据智能日期解析 - 支持 YYYYMM 和 YYMM 格式，自动补全年份批量处理 - 一次处理 10+ 只基金，节省 99% 时间 ⚙️ 功能功能说明核心指标提取久期、到期收益率 (YTM)、基金规模分布数据提取行业分布、地区分布、信用评级分布模板保持保持 Excel 原有样式、公式、数据类型智能匹配字段名模糊匹配，适应不同表述方式自动分类识别基金名称和日期，智能分 Sheet 📥 输入类型说明要求 Excel 模板用户自定义格式文件名：互认基金月度更新_YYYYMMvsYYYYMM.xlsx PDF 月报基金月度报告支持文本/图表/扫描版，文件名含月份（如华夏 2601.pdf） 📤 输出文件说明互认基金月度更新_YYYYMMvsYYYYMM_最终版.xlsx 包含上月（列 4）和本月（列 6）的完整对比数据

提取内容：

核心指标：久期、YTM（两月对比）分布数据：行业、地区、信用评级（两月对比）其他：十大持仓、派息记录等 🚀 快速开始 1️⃣ 安装依赖（首次使用） # 系统工具 yum 安装 -y tesseract tesseract-langpack-chi_simp poppler-utils

# Python 包 pip 安装 pdf2image Pillow opencv-python-headless

2️⃣ 准备文件工作目录/ ├── 模板/ │ └── 互认基金月度更新_202512vs202601.xlsx ├── 月报数据/ │ ├── 202512/ # 上月 PDF │ │ ├── 华夏 202512.pdf │ │ └── 南方东英 202512.pdf │ └── 202601/ # 本月 PDF │ ├── 华夏 2601.pdf │ └── 南方东英 2601.pdf

3️⃣ 运行处理 cd ~/.代理s/技能s/fund报告-scrape

python3 scripts/auto_更新_two_months.py \ "/path/to/互认基金月度更新_202512vs202601.xlsx" \ "/path/to/月报数据/202512/" \ "/path/to/月报数据/202601/" \ "/path/to/互认基金月度更新_202512vs202601_最终版.xlsx"

4️⃣ 查看结果

输出文件包含：

✅ 上月数据（列 4）：202512 ✅ 本月数据（列 6）：202601 ✅ 自动对比：久期、YTM、行业分布等 📁 文件结构 fund报告-scrape/ ├── 技能.md # 技能说明 ├── SECURITY_REVIEW.md # 安全评估报告 ├── _meta.json # 元数据 ├── requirements.txt # Python 依赖 ├── scripts/ │ ├── auto_更新_two_months.py # ⭐ 双月处理（推荐） │ ├── auto_更新_ocr.py # OCR 增强版 │ └── 安装_ocr_deps.sh # 依赖安装脚本 └── references/ ├── 提取ion_templates.json # 提取模板配置 ├── ocr_rules.md # OCR 识别规则 ├── field_m应用ing.md # 字段映射规则 ├── template_learning.md # 模板学习规则 ├── batch_processing.md # 批量处理规则 └── interaction_rules.md # 交互规则

📋 脚本说明脚本用途推荐使用 auto_更新_two_months.py 双月对比处理 ⭐⭐⭐ 推荐 auto_更新_ocr.py 单月 OCR 处理 ⭐⭐ 备选安装_ocr_deps.sh 一键安装依赖 ⭐⭐⭐ 首次使用 ❓ 常见问题 Q1: OCR 识别准确率低？

A: 确保 PDF 清晰度足够，建议：

使用 300 DPI 以上的 PDF 避免模糊或压缩过度的文件图表数据建议对照 PDF 手动验证 Q2: 日期解析错误？

A: 检查文件名格式：

Excel 文件名必须包含 YYYYMMvsYYYYMM PDF 文件名应包含月份信息（如 2601 或 202601） Q3: 部分基金数据未提取？

A: 可能原因：

PDF 中基金名称与模板不匹配数据以复杂图表形式存在建议查看日志中的"未匹配"提示 📝 更新日志 v1.0.0 (2026-03-14)

核心功能：

✅ 文本+OCR 双重提取，支持图表数据识别 ✅ 双月对比处理，自动生成对比数据 ✅ 智能日期解析，支持 YYYYMM 和 YYMM 格式 ✅ 自动年份补齐（2601 → 202601） ✅ 从 Excel 文件名解析对比月份 ✅ 批量处理 10+ 只基金 ✅ 保持 Excel 原有样式和公式

技术特性：

✅ Tesseract OCR 引擎（中文+英文） ✅ pdfplumber 文本提取 ✅ OpenCV 图像预处理 ✅ 自动基金匹配和分类

系统依赖：

Tesseract OCR 5.x + 中文语言包 Poppler-utils（PDF 转图片） Python 3.8+

License

运行时依赖

安装命令

技能文档

相关技能推荐