pdf-ocr-byzhangchong

Name: pdf-ocr-byzhangchong
Rating: 1

v1.0.0

批量 OCR 处理扫描 PDF，自动生成带文字层的 PDF 并可导出为 Markdown/纯文本。使用场景包括老师代理需要将大量扫描教材 PDF 转化为可检索文本。

1· 195·0 当前·0 累计

by @openclawzhangchong (张翀)·MIT-0

文档工具文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install pdf-ocr-zc

镜像加速npx clawhub@latest install pdf-ocr-zc --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

PDF OCR 处理技能何时使用需要对大量扫描件 PDF 进行文字识别（OCR）希望直接得到可搜索的 PDF（文字层）或提取的纯文本/Markdown 需要在老师代理工作流中自动化该步骤基本使用方式 # 运行一次 OCR（需要已安装 Tesseract 与 ocrmypdf） OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py <输入-pdf> <输出-pdf>

<输入-pdf>：原始扫描 PDF 路径 <输出-pdf>：输出带文字层的 PDF（同目录或指定路径）高级选项若想一次性处理目录下所有 PDF，使用 --batch-dir 参数： OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py --batch-dir

可加 --lang chi_sim 指定中文简体模型（默认 tesseract 会自动检测语言）脚本说明 (scripts/ocr_batch.py) 检测并确保 ocrmypdf 可用；如未安装会提示安装指令使用 ocrmypdf 完成 OCR，内部调用已装好的 Tesseract 支持批量目录模式，遍历 *.pdf 并生成对应带文字层文件错误会记录到记录s/pdf_ocr_error.记录，便于排查参考资源 references/ocr_tips.md：常见 OCR 参数调优技巧（如 DPI、图片预处理） references/安装_ocr.md：在 Windows 上安装 Tesseract 与 ocrmypdf 的详细步骤与老师代理的集成

在老师代理的工作流（如 auto_ingest）中，可在 HEARTBEAT.md 或 cron 中加入如下调用，以实现每日自动 OCR：

OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py --batch-dir /path/to/teacher-pdfs

这样老师代理在 ingest 前就已拥有文字层，后续向量化、检索都能顺畅进行。

使用示例单文件 OCR： OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py D:\docs\扫描1.pdf D:\docs\扫描1_text.pdf

批量目录 OCR： OpenClaw exec python 技能s/pdf-ocr/scripts/ocr_batch.py --batch-dir D:\teacher-pdfs

如需更细粒度的文本（Markdown），可在脚本后接 pdf2txt.py 转换。

注意：此技能仅在本机执行，不会触发外部网络请求，符合安全策略。

License

运行时依赖

安装命令

技能文档

相关技能推荐