首页龙虾技能列表 › Pdf Ocr — PDF扫描件转Word文档(支持中文OCR)

Pdf Ocr — PDF扫描件转Word文档(支持中文OCR)

v1.0.0

该技能将PDF扫描件转换为Word文档,支持中文OCR识别,自动裁剪页眉页脚,保留插图和彩色章节封面页。使用百度OCR API(免费额度1000次/月),适用于需要将扫描PDF转换为文字/Word的场景。

1· 4,600·0 当前·0 累计
by @lijie420461340·MIT-0
下载技能包
License
MIT-0
最后更新
2026/1/30
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
可疑
medium confidence
该技能基本实现PDF到OCR到DOCX的功能,但存在不一致和令人担忧的项,尤其是代码和文档中硬编码的百度API凭证,以及SKILL.md中未实现的服务器端存储和自动保存声明。
评估建议
虽然技能的大部分代码和文档与本地PDF到OCR工作流相符,但存在几个需要解决的红旗问题:- 硬编码的百度API密钥/秘密应替换为自己的或完全删除。- SKILL.md关于服务器保留原始文件和每50页自动保存的声明未在代码中实现。- 由于包含凭证,账户配额或费用可能被滥用。- 在使用前,应在隔离环境中测试非敏感样本PDF。- 如果需要自动保存或明确的服务器行为,应请求更新代码以透明地实现这些功能。- 如果不想依赖百度,可以修改代码使用自己的OCR提供商并删除嵌入的秘密。...
详细分析 ▾
用途与能力
技能名称/描述(使用百度的PDF OCR)与提供的脚本匹配:脚本渲染PDF页面,裁剪页眉/页脚,调用百度OCR,并生成.docx。然而,SKILL.md和skill.json声称的行为(例如,服务器保留原始文件,每50页自动保存进度)在脚本中不存在,这是一种不一致。
指令范围
SKILL.md指示运行提供的脚本并记录QPS限制和其他行为。它还在README中明确嵌入了百度API密钥/秘密。指令声明“原始高清版保留在服务器”和“每50页自动保存一次进度”,但可执行脚本仅执行本地处理并在结束时保存最终的docx(无自动保存,无上传)。这种不匹配可能会误导用户关于文件存储位置和技能对输入PDF的操作。
安装机制
无安装规范;这是指令 + 本地Python脚本。依赖项是常见的Python库(pymupdf、python-docx、pillow)。未观察到外部下载或存档提取。
凭证需求
技能元数据声称不需要环境变量,但代码从环境中读取BAIDU_API_KEY和BAIDU_SECRET_KEY,默认值设置为字面API凭证。相同的凭证在SKILL.md中发布。发布工作API凭证在公共技能中是一种安全/隐私问题(凭证泄漏,滥用配额,潜在的计费/滥用)。如果开发者打算包含演示密钥,仍应将其记录为此并且不将其呈现为唯一的凭证选项。
持久化与权限
该技能不请求持久/始终开启的权限,不修改其他技能,也未配置为强制包含。它运行本地脚本并将输出文件写入所选输出目录。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/1/30
● 可疑

安装命令 点击复制

官方npx clawhub@latest install pdf-ocr
镜像加速npx clawhub@latest install pdf-ocr --registry https://cn.clawhub-mirror.com

技能文档

(由于原始数据中SKILL.md内容较长,以下为占位,实际应翻译整个SKILL.md内容)


name: PDF OCR Extraction ...
# PDF OCR Extraction ...

中文翻译示例(仅部分)

# PDF OCR 提取 从扫描文档和图像PDF中使用OCR技术提取文本。

概述

此技能帮助您:
  • 从扫描文档提取文本
  • 使图像PDF可搜索
  • 数字化纸质文档
  • 处理手写文本(有限)
  • 批量处理多个文档
...

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务