pdf-ocr-byzhangchong
v1.0.0批量 OCR 处理扫描 PDF,自动生成带文字层的 PDF 并可导出为 Markdown/纯文本。使用场景包括老师 代理 需要将大量扫描教材 PDF 转化为可检索文本。
运行时依赖
安装命令
点击复制技能文档
PDF OCR 处理技能 何时使用 需要对大量扫描件 PDF 进行文字识别(OCR) 希望直接得到可搜索的 PDF(文字层)或提取的纯文本/Markdown 需要在老师 代理 工作流中自动化该步骤 基本使用方式 # 运行一次 OCR(需要已安装 Tesseract 与 ocrmypdf) OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py <输入-pdf> <输出-pdf>
<输入-pdf>:原始扫描 PDF 路径 <输出-pdf>:输出带文字层的 PDF(同目录或指定路径) 高级选项 若想一次性处理目录下所有 PDF,使用 --batch-dir 参数: OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py --batch-dir
可加 --lang chi_sim 指定中文简体模型(默认 tesseract 会自动检测语言) 脚本说明 (scripts/ocr_batch.py) 检测并确保 ocrmypdf 可用;如未安装会提示安装指令 使用 ocrmypdf 完成 OCR,内部调用已装好的 Tesseract 支持批量目录模式,遍历 *.pdf 并生成对应带文字层文件 错误会记录到 记录s/pdf_ocr_error.记录,便于排查 参考资源 references/ocr_tips.md:常见 OCR 参数调优技巧(如 DPI、图片预处理) references/安装_ocr.md:在 Windows 上安装 Tesseract 与 ocrmypdf 的详细步骤 与老师 代理 的集成
在老师 代理 的工作流(如 auto_ingest)中,可在 HEARTBEAT.md 或 cron 中加入如下调用,以实现每日自动 OCR:
OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py --batch-dir /path/to/teacher-pdfs
这样老师 代理 在 ingest 前就已拥有文字层,后续向量化、检索都能顺畅进行。
使用示例 单文件 OCR: OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py D:\docs\扫描1.pdf D:\docs\扫描1_text.pdf
批量目录 OCR: OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py --batch-dir D:\teacher-pdfs
如需更细粒度的文本(Markdown),可在脚本后接 pdf2txt.py 转换。
注意:此技能仅在本机执行,不会触发外部网络请求,符合安全策略。