PaddleOCR Text Recognition — PaddleOCR 文本识别

Name: PaddleOCR Text Recognition — PaddleOCR 文本识别
Rating: 12

v1.0.21

使用此技能时，用户可以从图像、照片、扫描、截图或扫描的PDF中提取文本。返回带有行级文本和可选bbox坐标的精确机器可读字符串。对于CJK、小字体和手写文本具有高准确率。触发词：OCR、文字识别、图片转文字、截图识字、提取图中文字、扫描识字、识字、纯文字、plain text extraction、坐标、检测框、bbox、bounding box、image to text、screenshot、photo scan、recognize text。

12· 2.8k·0 当前·0 累计

by @bobholamovic (Lin Manhui)·MIT-0

文件处理 AI模型访问系统工具图像处理钉钉

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install paddleocr-text-recognition

镜像加速npx clawhub@latest install paddleocr-text-recognition --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

PaddleOCR 文本识别技能何时使用此技能触发关键词（路由）：在上面的 YAML 描述中列出了中英文双语触发词——使用该字段进行发现和路由。使用此技能进行：从图像（截图、照片、扫描件）中提取文本从 PDF 或文档图像中提取文本，当目标是行/框级文本，而不是恢复表格网格、公式或完整的阅读顺序布局从指向图像/PDF 的 URL 或本地文件中提取文本不应使用：可以直接作为文本读取的纯文本文件、代码文件或 Markdown 文档具有表格、公式、图表或复杂布局的文档——应使用文档解析代替不涉及图像到文本转换的任务安装脚本内联声明其依赖项（PEP 723）。无需单独安装步骤——uv 自动解析依赖项： uv run scripts/ocr_caller.py --help 如何使用此技能工作目录：以下所有 uv run scripts/... 命令应从此技能的根目录运行（包含此 SKILL.md 文件的目录）。基本工作流确定输入源：用户提供 URL：使用 --file-url 参数用户提供本地文件路径：使用 --file-path 参数执行 OCR： uv run scripts/ocr_caller.py --file-url "用户提供的 URL" --pretty 或对于本地文件： uv run scripts/ocr_caller.py --file-path "文件路径" --pretty 性能注意事项：解析时间随文档复杂度而变化。单页图像通常在 1-3 秒内完成；大型 PDF（50+ 页）可能需要几分钟。允许足够的时间，然后再假设超时。默认行为：保存原始 JSON 到临时文件：如果省略 --output，则脚本在系统临时目录下自动保存默认路径模式：<系统临时>/paddleocr/text-recognition/results/result_<时间戳>_.json 如果提供 --output，则覆盖默认临时文件目标如果提供 --stdout，则将 JSON 打印到 stdout 并且不保存文件在保存模式下，脚本在 stderr 上打印绝对保存路径：结果保存到：/absolute/path/... 在默认/自定义保存模式下，读取并解析保存的 JSON 文件，然后响应解析 JSON 响应：在默认/自定义保存模式下，从脚本显示的保存文件路径加载 JSON 检查 ok 字段：true 表示成功，false 表示错误提取文本：text 字段包含所有识别的文本如果使用 --stdout，则直接解析 stdout JSON 处理错误：如果 ok 为 false，则显示 error.message 向用户呈现结果：以可读格式显示提取的文本如果文本为空，则图像可能不包含文本在保存模式下，始终告诉用户保存的文件路径以及完整的原始 JSON 可在那里使用提取后常见的下一步一旦您拥有识别的文本，常见的下一步是：保存到文件：将 text 字段写入 .txt 或 .md 文件搜索内容：在保存的输出文件中搜索关键词馈送到另一个管道：text 字段是干净的纯文本，准备好进行下游处理效果不佳：在重试之前，请参阅下面的“更好结果的提示” 完整输出显示始终向用户显示 COMPLETE 识别的文本。用户通常需要完整的内容以进行下游使用——默默地丢失数据可能会导致用户没有注意到丢失。显示 text 字段的全部内容，无论长度如何不要使用诸如“这是摘要”或“文本以...开头”之类的短语除非文本真正超过合理的显示限制（>10,000 个字符），否则不要使用“...”截断示例 - 正确：用户：“从此图像中提取文本” 代理：“我已从图像中提取了文本。以下是完整的内容：[显示整个文本在此]” 示例 - 不正确：用户：“从此图像中提取文本” 代理：“我在图像中找到了些文本。以下是预览：‘快速棕色狐狸...’”（截断）理解输出脚本返回一个 JSON 信封，包含 ok、text、result 和 error 字段。使用 text 进行识别的内容；result 包含用于调试的原始 API 响应。有关完整的模式和字段级别详细信息，请参阅 references/output_schema.md。原始结果位置（默认）：脚本在 stderr 上打印的临时文件路径使用示例示例 1：URL OCR uv run scripts/ocr_caller.py --file-url "https://example.com/invoice.jpg" --pretty 示例 2：本地文件 OCR uv run scripts/ocr_caller.py --file-path "./document.pdf" --pretty 示例 3：带有显式文件类型的 OCR uv run scripts/ocr_caller.py --file-url "https://example.com/input" --file-type 1 --pretty --file-type 0：PDF --file-type 1：图像如果省略，则类型将从文件扩展名自动检测。对于本地文件，需要一个已识别的扩展名（.pdf、.png、.jpg、.jpeg、.bmp、.tiff、.tif、.webp）；否则，请显式传递 --file-type。对于具有未识别扩展名的 URL，服务将尝试推断。示例 4：打印 JSON 而不保存

License

运行时依赖

安装命令

技能文档

相关技能推荐