📦 文档识别 表格识别 Pro(翔云开放平台)翔云通用文档/表格识别

v1.0.1

Agent。当用户请求以下操作时触发: - 通用文档识别、文档 OCR、OCR 文档、识别图片文字 - 表格识别、表格 OCR、识别表格 - 提取表格内容、读取表格数据 - 识别图片/扫描件/PDF 中的文字和表格 - 表格转 Excel、表格转 Word、表格转 Markdown - 导...

0· 64·0 当前·0 累计
下载技能包
最后更新
2026/4/21
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能的代码与运行时指令与其声明的 OCR/表格识别用途一致;仅需服务 API key/secret,读取本地文件并将图像发送至 netocr.com 处理。
评估建议
该技能的功能如其描述(上传图片至 netocr.com 并返回 OCR/表格结果)。安装前请注意: 1) 确认你信任 netocr.com,因为图片会上传至该第三方服务; 2) 建议将 NETOCR_KEY/NETOCR_SECRET 设为环境变量,而非明文保存在技能的 ./config.json 中,或将配置文件放在受保护的文件系统; 3) 脚本会读取你提供的任意文件路径或文件夹——避免指向包含敏感文件的目录; 4) 代码会将返回的 OSS URL 改写为 oss-cn-beijing.aliyuncs.com 并带 Host 头以下载导出文件(文档已说明,这是针对提供商返回 http URL 的变通方案,但你仍可验证返回的主机及下载内容); 5) 若怀疑密钥泄露,请在提供商处轮换密钥。整体来看,该包与其声明用途内部一致。...
详细分析 ▾
用途与能力
名称/描述(表格/OCR识别)与所附 Python 脚本及 SKILL.md 一致。脚本调用 netocr.com 接口完成识别与下载,仅需 OCR key/secret,与声明功能相符。
指令范围
说明与脚本会读取用户提供的文件路径或目录,转换部分图片格式,将图片数据发送至 netocr.com,本地保存识别 JSON 及导出文件,并可提示用户输入凭据。这些行为是 OCR 所必需的,但意味着:(1) 图片(以及你所指向文件中的任何内容)会上传至 netocr.com;(2) 凭据可能以明文形式保存在技能目录下的 ./config.json 中。
安装机制
无安装说明(仅提供指令 + 附带 Python 脚本)。脚本依赖常用库(requests,可选 Pillow)。安装期间不会从不熟悉的 URL 下载任何内容,也不会在系统范围内写入文件。
凭证需求
无需环境变量;脚本可选读取 NETOCR_KEY / NETOCR_SECRET,加载 ./config.json 或提示用户输入。需提供 OCR key/secret。注意:该技能会引导用户将凭据以明文保存在技能目录的 config.json 中(持久化存储密钥)。
持久化与权限
始终为 false,且该 skill 不会请求系统级高权限。它仅在 skill 或用户指定的目录下写入自身的 config.json 和输出文件,不会修改其他 skill 或全局 agent 设置。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.12026/4/21

- 未检测到文件变更;仅内部版本更新。 - 文档与功能与上一版本保持一致。

无害

安装命令

点击复制
官方npx clawhub@latest install xiangyun-table-ocr
镜像加速npx clawhub@latest install xiangyun-table-ocr --registry https://cn.longxiaskill.com

技能文档

功能概述

调用翔云 OCR 平台的通用文档识别 API(typeId: 3050),对图片、PDF、扫描件中的文字、表格、版面结构进行一体化识别,并支持导出为 Excel、Word、Markdown、PDF、TXT、OFD 等多种格式。

适用场景: | 类别 | 示例 | |:---|:---| | 纯表格 | 财务报表、数据表格、对账单、工程量表 | | 含表格文档 | 合同、报告、说明书、论文、试卷 | | 纯文字文档 | 证件、发票、手写稿、扫描件 | | 多语言文档 | 英文合同、日文资料、繁体文档、多语言混排 |

💡 表格识别建议layout: 1(开启版面分析)对表格结构识别更友好。

---

⚠️ 安全说明

数据发送范围
  • 识别阶段:用户图片和 API 凭据会被发送至 netocr.com 进行云端 OCR 处理,图片不会在服务端持久化存储
  • 下载阶段:OSS 导出会话凭证来自 API 返回的预签名 URL,文件直接下载到本地

SSL 处理策略

  • 主 APInetocr.com):完整 SSL 证书验证(requests 默认行为)
  • OSS 下载product.netocr.com):翔云返回 http://product.netocr.com/... 预签名 URL,该域名是阿里云 OSS cn-beijing 的 CNAME。脚本将请求目标替换为阿里云 OSS 官方域名(oss-cn-beijing.aliyuncs.com),并通过 Host 头携带原始域名以使预签名校验通过,全程使用标准 HTTPS,无任何 SSL 配置修改

---

⚠️ 凭据配置

配置文件

将凭据保存到 Skill 目录下的 config.json: ``json // config.json(Skill 同目录下) { "key": "你的OCRKey", "secret": "你的OCRSecret" } `
💡 首次使用:创建 config.json,填入凭据即可。配置一次,永久使用。

凭据加载优先级

| 优先级 | 来源 | 说明 | |:---:|:---|:---| | 1 | ./config.json | Skill 自目录配置文件 | | 2 | 环境变量 | NETOCR_KEY / NETOCR_SECRET | | 3 | 用户输入 | 前两者都没有时,向用户索要 |

首次配置流程

  • 检查 ./config.json 是否存在且含 keysecret
  • 若不存在或不完整,向用户提示:
` 首次使用翔云文档识别,请配置 API 凭据:
  • 前往 https://netocr.com 注册并登录
  • 进入【个人中心】获取 API Key 和 Secret
  • 请提供:
- key:______ - secret:______
`
  • 收到后写入 ./config.json,并提示用户"凭据已保存,后续无需重复输入"

---

触发词参考

| 触发表达 | 对应意图 | |:---|:---| | "识别这个文档"、"OCR 这张图片"、"读取图片文字" | 通用文档识别 | | "识别这张表格"、"提取表格数据" | 表格识别(自动 layout=1) | | "英文合同 OCR"、"识别日文资料" | 多语言识别 | | "帮我识别 PDF"、"扫描件文字提取" | PDF/扫描件识别 | | "这张发票识别一下" | 证件/票据识别 | | "表格转 Excel"、"导出为 Markdown" | 识别 + 导出 | | "歪斜文档识别"、"图片有点歪" | 带校正的识别 | | "批量识别文件夹里所有图片" | 批量识别 |

---

执行流程

阶段一:识别文档

Step 1:加载凭据

按【凭据配置】章节顺序加载
key / secret
  • config.json → 环境变量 → 用户输入

Step 2:获取图片输入

支持以下方式:
  • 本地文件路径:用户提供绝对路径,脚本读取后转 Base64
  • 用户拖入文件:直接获取文件路径
  • 批量目录:用户提供文件夹路径,遍历所有图片

Step 3:配置识别参数

固定参数
`json { "typeId": 3050, "format": "json" } ` 语言参数 nLanguage(默认 0=简体中文): | 值 | 语言 | 值 | 语言 | |:---:|:---|:---:|:---| | 0 | 简体中文(印刷)| 9 | 法文 | | 1 | 繁体中文(印刷)| 10 | 西班牙文 | | 2 | 英文 | 11 | 日文 | | 3 | 简体中文(印刷+手写)| 12 | 韩文 | | 4 | 繁体中文(印刷+手写)| 13 | 葡萄牙文 | | 5 | 阿拉伯文 | 14 | 越南文 | | 6 | 乌尔都文 | 15 | 孟加拉文 | | 8 | 西里尔文(俄文等)| | |

💡 语言推断:提到"英文"→ 2;"日文"→ 11;"繁体"→ 1;未指定→ 0

版面参数 layout: | 值 | 含义 | 适用 | |:---:|:---|:---| | 0 | 关闭版面分析 | 纯文字、证件 | | 1 | 开启版面分析 | 表格首选、多栏文档 |

图像校正参数: | 参数 | 值 | 触发条件 | |:---:|:---:|:---| | autoRotation | 1 | 图片自动判断是否旋转 | | inclineCorrect | 0/1/2 | 不矫正/透视畸变/弯曲畸变校正 |

预处理参数: | 参数 | 值 | 触发条件 | |:---:|:---:|:---| | removeWaterMark | 1 | 去除水印 | | filterColor | 1~4 | 滤红/滤蓝(背景干扰时)|

Step 4:调用识别 API

执行脚本 scripts/recognize_table.py`bash python scripts/recognize_table.py --image <路径> --export xls ` API 接口:
  • Base64POST https://netocr.com/api/recog_table_base64
  • File 上传POST https://netocr.com/api/recog_table_file

响应格式:{"message": {"status": 0, "value": {...}}}

  • status == 0 表示成功
  • consumeIdmessage.value.consumeId

Step 5:展示结果

  • 以 Markdown 表格预览识别内容
  • 告知 consumeId,提示可随时导出

---

阶段二:导出文件(按需触发)

仅当用户明确提出"导出/下载/转换/保存为"时才执行。

导出格式: | 格式 | 说明 | 推荐场景 | |:---|:---|:---| | xls | Excel | 数据处理 | | flowWord | Word 文字流 | 正文编辑 | | boxWord | Word 文本框 | 保留排版 | | md | Markdown | 文档转换 | | pdf | 双层 PDF | 存档打印 | | txt | 纯文本 | 简单提取 | | ofd | OFD | 国产格式归档 |

下载接口POST https://netocr.com/api/download_file

  • 不需要 key/secret
  • 返回 OSS 预签名 URL → 再发 GET 请求下载实际文件

---

批量识别

  • 遍历目录下所有 jpg/png/jpeg/webp/tif/pdf` 文件
  • 逐一调用识别 API(间隔 0.5 秒)
  • 汇总展示成功/失败统计
  • 按需批量导出

---

图片/文件要求

| 类型 | 要求 | |:---|:---| | 支持格式 | PNG、JPG、JPEG、WEBP、TIF、OFD、PDF | | 普通图像 | 约 200KB,位深度 24 以上 | | 扫描件 | 分辨率 300DPI,小于 3M |

---

错误处理

| 错误码 | 含义 | 处理 | |:---:|:---|:---| | 20001 | Key/Secret 错误 | 检查配置文件凭据 | | 10001 | 缺少必要参数 | 检查 typeId/format | | 10002 | 识别失败 | 改善图片质量,开 autoRotation | | 10003 | 额度不足 | 充值或更换账号 | | 10004 | 图片格式不支持 | 转为 JPG/PNG 后重试 | | 下载失败 | consumeId 过期 | 重新识别后再下载 |

---

获取 key 和 secret

  • 登录翔云
  • 在个人中心获得

---

参考文档

详细 API 字段、参数枚举及返回结构,参考:翔云 OCR API 参考

数据来源ClawHub ↗ · 中文优化:龙虾技能库