PaddleOCR Text Recognition — PaddleOCR 文本识别
v1.0.21使用此技能时,用户可以从图像、照片、扫描、截图或扫描的PDF中提取文本。返回带有行级文本和可选bbox坐标的精确机器可读字符串。对于CJK、小字体和手写文本具有高准确率。触发词:OCR、文字识别、图片转文字、截图识字、提取图中文字、扫描识字、识字、纯文字、plain text extraction、坐标、检测框、bbox、bounding box、image to text、screenshot、photo scan、recognize text。
运行时依赖
安装命令
点击复制技能文档
PaddleOCR 文本识别技能 何时使用此技能 触发关键词(路由):在上面的 YAML 描述中列出了中英文双语触发词——使用该字段进行发现和路由。 使用此技能进行: 从图像(截图、照片、扫描件)中提取文本 从 PDF 或文档图像中提取文本,当目标是行/框级文本,而不是恢复表格网格、公式或完整的阅读顺序布局 从指向图像/PDF 的 URL 或本地文件中提取文本 不应使用: 可以直接作为文本读取的纯文本文件、代码文件或 Markdown 文档 具有表格、公式、图表或复杂布局的文档——应使用文档解析代替 不涉及图像到文本转换的任务 安装 脚本内联声明其依赖项(PEP 723)。无需单独安装步骤——uv 自动解析依赖项: uv run scripts/ocr_caller.py --help 如何使用此技能 工作目录:以下所有 uv run scripts/... 命令应从此技能的根目录运行(包含此 SKILL.md 文件的目录)。 基本工作流 确定输入源: 用户提供 URL:使用 --file-url 参数 用户提供本地文件路径:使用 --file-path 参数 执行 OCR: uv run scripts/ocr_caller.py --file-url "用户提供的 URL" --pretty 或对于本地文件: uv run scripts/ocr_caller.py --file-path "文件路径" --pretty 性能注意事项:解析时间随文档复杂度而变化。单页图像通常在 1-3 秒内完成;大型 PDF(50+ 页)可能需要几分钟。允许足够的时间,然后再假设超时。 默认行为:保存原始 JSON 到临时文件: 如果省略 --output,则脚本在系统临时目录下自动保存 默认路径模式:<系统临时>/paddleocr/text-recognition/results/result_<时间戳>_.json 如果提供 --output,则覆盖默认临时文件目标 如果提供 --stdout,则将 JSON 打印到 stdout 并且不保存文件 在保存模式下,脚本在 stderr 上打印绝对保存路径: 结果保存到:/absolute/path/... 在默认/自定义保存模式下,读取并解析保存的 JSON 文件,然后响应 解析 JSON 响应: 在默认/自定义保存模式下,从脚本显示的保存文件路径加载 JSON 检查 ok 字段:true 表示成功,false 表示错误 提取文本:text 字段包含所有识别的文本 如果使用 --stdout,则直接解析 stdout JSON 处理错误: 如果 ok 为 false,则显示 error.message 向用户呈现结果: 以可读格式显示提取的文本 如果文本为空,则图像可能不包含文本 在保存模式下,始终告诉用户保存的文件路径以及完整的原始 JSON 可在那里使用 提取后常见的下一步 一旦您拥有识别的文本,常见的下一步是: 保存到文件:将 text 字段写入 .txt 或 .md 文件 搜索内容:在保存的输出文件中搜索关键词 馈送到另一个管道:text 字段是干净的纯文本,准备好进行下游处理 效果不佳:在重试之前,请参阅下面的“更好结果的提示” 完整输出显示 始终向用户显示 COMPLETE 识别的文本。用户通常需要完整的内容以进行下游使用——默默地丢失数据可能会导致用户没有注意到丢失。 显示 text 字段的全部内容,无论长度如何 不要使用诸如“这是摘要”或“文本以...开头”之类的短语 除非文本真正超过合理的显示限制(>10,000 个字符),否则不要使用“...”截断 示例 - 正确: 用户:“从此图像中提取文本” 代理:“我已从图像中提取了文本。以下是完整的内容:[显示整个文本在此]” 示例 - 不正确: 用户:“从此图像中提取文本” 代理:“我在图像中找到了些文本。以下是预览:‘快速棕色狐狸...’”(截断) 理解输出 脚本返回一个 JSON 信封,包含 ok、text、result 和 error 字段。使用 text 进行识别的内容;result 包含用于调试的原始 API 响应。有关完整的模式和字段级别详细信息,请参阅 references/output_schema.md。 原始结果位置(默认):脚本在 stderr 上打印的临时文件路径 使用示例 示例 1:URL OCR uv run scripts/ocr_caller.py --file-url "https://example.com/invoice.jpg" --pretty 示例 2:本地文件 OCR uv run scripts/ocr_caller.py --file-path "./document.pdf" --pretty 示例 3:带有显式文件类型的 OCR uv run scripts/ocr_caller.py --file-url "https://example.com/input" --file-type 1 --pretty --file-type 0:PDF --file-type 1:图像 如果省略,则类型将从文件扩展名自动检测。对于本地文件,需要一个已识别的扩展名(.pdf、.png、.jpg、.jpeg、.bmp、.tiff、.tif、.webp);否则,请显式传递 --file-type。对于具有未识别扩展名的 URL,服务将尝试推断。 示例 4:打印 JSON 而不保存