文档识别表格识别 Pro（翔云开放平台）翔云通用文档/表格识别

v1.0.1

Agent。当用户请求以下操作时触发： - 通用文档识别、文档 OCR、OCR 文档、识别图片文字 - 表格识别、表格 OCR、识别表格 - 提取表格内容、读取表格数据 - 识别图片/扫描件/PDF 中的文字和表格 - 表格转 Excel、表格转 Word、表格转 Markdown - 导...

0· 64·0 当前·0 累计

by @liudengkui

文件处理文档工具智能体

下载技能包

最后更新

2026/4/21

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能的代码与运行时指令与其声明的 OCR/表格识别用途一致；仅需服务 API key/secret，读取本地文件并将图像发送至 netocr.com 处理。

评估建议

该技能的功能如其描述（上传图片至 netocr.com 并返回 OCR/表格结果）。安装前请注意： 1) 确认你信任 netocr.com，因为图片会上传至该第三方服务； 2) 建议将 NETOCR_KEY/NETOCR_SECRET 设为环境变量，而非明文保存在技能的 ./config.json 中，或将配置文件放在受保护的文件系统； 3) 脚本会读取你提供的任意文件路径或文件夹——避免指向包含敏感文件的目录； 4) 代码会将返回的 OSS URL 改写为 oss-cn-beijing.aliyuncs.com 并带 Host 头以下载导出文件（文档已说明，这是针对提供商返回 http URL 的变通方案，但你仍可验证返回的主机及下载内容）； 5) 若怀疑密钥泄露，请在提供商处轮换密钥。整体来看，该包与其声明用途内部一致。...

详细分析 ▾

✓ 用途与能力

名称/描述（表格/OCR识别）与所附 Python 脚本及 SKILL.md 一致。脚本调用 netocr.com 接口完成识别与下载，仅需 OCR key/secret，与声明功能相符。

ℹ 指令范围

说明与脚本会读取用户提供的文件路径或目录，转换部分图片格式，将图片数据发送至 netocr.com，本地保存识别 JSON 及导出文件，并可提示用户输入凭据。这些行为是 OCR 所必需的，但意味着：(1) 图片（以及你所指向文件中的任何内容）会上传至 netocr.com；(2) 凭据可能以明文形式保存在技能目录下的 ./config.json 中。

✓ 安装机制

无安装说明（仅提供指令 + 附带 Python 脚本）。脚本依赖常用库（requests，可选 Pillow）。安装期间不会从不熟悉的 URL 下载任何内容，也不会在系统范围内写入文件。

ℹ 凭证需求

无需环境变量；脚本可选读取 NETOCR_KEY / NETOCR_SECRET，加载 ./config.json 或提示用户输入。需提供 OCR key/secret。注意：该技能会引导用户将凭据以明文保存在技能目录的 config.json 中（持久化存储密钥）。

✓ 持久化与权限

始终为 false，且该 skill 不会请求系统级高权限。它仅在 skill 或用户指定的目录下写入自身的 config.json 和输出文件，不会修改其他 skill 或全局 agent 设置。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.12026/4/21

- 未检测到文件变更；仅内部版本更新。 - 文档与功能与上一版本保持一致。

● 无害

安装命令

点击复制

官方npx clawhub@latest install xiangyun-table-ocr

镜像加速npx clawhub@latest install xiangyun-table-ocr --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

功能概述

调用翔云 OCR 平台的通用文档识别 API（typeId: 3050），对图片、PDF、扫描件中的文字、表格、版面结构进行一体化识别，并支持导出为 Excel、Word、Markdown、PDF、TXT、OFD 等多种格式。

适用场景： | 类别 | 示例 | |:---|:---| | 纯表格 | 财务报表、数据表格、对账单、工程量表 | | 含表格文档 | 合同、报告、说明书、论文、试卷 | | 纯文字文档 | 证件、发票、手写稿、扫描件 | | 多语言文档 | 英文合同、日文资料、繁体文档、多语言混排 |

💡 表格识别建议：layout: 1（开启版面分析）对表格结构识别更友好。

---

⚠️ 安全说明

数据发送范围：

识别阶段：用户图片和 API 凭据会被发送至 netocr.com 进行云端 OCR 处理，图片不会在服务端持久化存储
下载阶段：OSS 导出会话凭证来自 API 返回的预签名 URL，文件直接下载到本地

SSL 处理策略：

主 API（netocr.com）：完整 SSL 证书验证（requests 默认行为）
OSS 下载（product.netocr.com）：翔云返回 http://product.netocr.com/... 预签名 URL，该域名是阿里云 OSS cn-beijing 的 CNAME。脚本将请求目标替换为阿里云 OSS 官方域名（oss-cn-beijing.aliyuncs.com），并通过 Host 头携带原始域名以使预签名校验通过，全程使用标准 HTTPS，无任何 SSL 配置修改

---

⚠️ 凭据配置

配置文件

将凭据保存到 Skill 目录下的 config.json： ``

json  
// config.json（Skill 同目录下）  
{  
  "key": "你的OCRKey",  
  "secret": "你的OCRSecret"  
}

💡 首次使用：创建 config.json，填入凭据即可。配置一次，永久使用。

`凭据加载优先级`


| 优先级 | 来源 | 说明 |  
|:---:|:---|:---|  
| 1 |

./config.json

 | Skill 自目录配置文件 |  
| 2 | 环境变量 |

NETOCR_KEY / NETOCR_SECRET

 |  
| 3 | 用户输入 | 前两者都没有时，向用户索要 |  
首次配置流程

检查 ./config.json 是否存在且含 key 和 secret


若不存在或不完整，向用户提示：

  
首次使用翔云文档识别，请配置 API 凭据：  
前往 https://netocr.com 注册并登录  
进入【个人中心】获取 API Key 和 Secret  
请提供：  
   - key：______  
   - secret：______

收到后写入 ./config.json，并提示用户"凭据已保存，后续无需重复输入"

---

`触发词参考`


| 触发表达 | 对应意图 |  
|:---|:---|  
| "识别这个文档"、"OCR 这张图片"、"读取图片文字" | 通用文档识别 |  
| "识别这张表格"、"提取表格数据" | 表格识别（自动 layout=1） |  
| "英文合同 OCR"、"识别日文资料" | 多语言识别 |  
| "帮我识别 PDF"、"扫描件文字提取" | PDF/扫描件识别 |  
| "这张发票识别一下" | 证件/票据识别 |  
| "表格转 Excel"、"导出为 Markdown" | 识别 + 导出 |  
| "歪斜文档识别"、"图片有点歪" | 带校正的识别 |  
| "批量识别文件夹里所有图片" | 批量识别 |  
---  
执行流程  
阶段一：识别文档  
Step 1：加载凭据  
按【凭据配置】章节顺序加载

key / secret

：  
config.json → 环境变量 → 用户输入  
Step 2：获取图片输入  
支持以下方式：  
本地文件路径：用户提供绝对路径，脚本读取后转 Base64  
用户拖入文件：直接获取文件路径  
批量目录：用户提供文件夹路径，遍历所有图片  
Step 3：配置识别参数  
固定参数：

json  
{  
  "typeId": 3050,  
  "format": "json"  
}

  
语言参数

nLanguage

（默认 0=简体中文）：  
| 值 | 语言 | 值 | 语言 |  
|:---:|:---|:---:|:---|  
| 0 | 简体中文（印刷）| 9 | 法文 |  
| 1 | 繁体中文（印刷）| 10 | 西班牙文 |  
| 2 | 英文 | 11 | 日文 |  
| 3 | 简体中文（印刷+手写）| 12 | 韩文 |  
| 4 | 繁体中文（印刷+手写）| 13 | 葡萄牙文 |  
| 5 | 阿拉伯文 | 14 | 越南文 |  
| 6 | 乌尔都文 | 15 | 孟加拉文 |  
| 8 | 西里尔文（俄文等）| | |  
💡 语言推断：提到"英文"→ 2；"日文"→ 11；"繁体"→ 1；未指定→ 0

版面参数 layout： | 值 | 含义 | 适用 | |:---:|:---|:---| | 0 | 关闭版面分析 | 纯文字、证件 | | 1 | 开启版面分析 | 表格首选、多栏文档 |

图像校正参数： | 参数 | 值 | 触发条件 | |:---:|:---:|:---| |autoRotation| 1 | 图片自动判断是否旋转 | |inclineCorrect | 0/1/2 | 不矫正/透视畸变/弯曲畸变校正 |

预处理参数： | 参数 | 值 | 触发条件 | |:---:|:---:|:---| |removeWaterMark| 1 | 去除水印 | |filterColor | 1~4 | 滤红/滤蓝（背景干扰时）|

`Step 4：调用识别 API`


执行脚本

scripts/recognize_table.py

：

bash  
python scripts/recognize_table.py --image <路径> --export xls

  
API 接口：

Base64：POST https://netocr.com/api/recog_table_base64

File 上传：POST https://netocr.com/api/recog_table_file

响应格式：{"message": {"status": 0, "value": {...}}}

status == 0 表示成功

consumeId 在 message.value.consumeId

`Step 5：展示结果`

以 Markdown 表格预览识别内容

告知 consumeId，提示可随时导出

---

`阶段二：导出文件（按需触发）`


仅当用户明确提出"导出/下载/转换/保存为"时才执行。

导出格式： | 格式 | 说明 | 推荐场景 | |:---|:---|:---| |xls| Excel | 数据处理 | |flowWord| Word 文字流 | 正文编辑 | |boxWord| Word 文本框 | 保留排版 | |md| Markdown | 文档转换 | |pdf| 双层 PDF | 存档打印 | |txt| 纯文本 | 简单提取 | |ofd | OFD | 国产格式归档 |

下载接口：POST https://netocr.com/api/download_file

不需要 key/secret


返回 OSS 预签名 URL → 再发 GET 请求下载实际文件

---

`批量识别`

遍历目录下所有 jpg/png/jpeg/webp/tif/pdf` 文件
逐一调用识别 API（间隔 0.5 秒）
汇总展示成功/失败统计
按需批量导出

---

图片/文件要求

| 类型 | 要求 | |:---|:---| | 支持格式 | PNG、JPG、JPEG、WEBP、TIF、OFD、PDF | | 普通图像 | 约 200KB，位深度 24 以上 | | 扫描件 | 分辨率 300DPI，小于 3M |

---

错误处理

| 错误码 | 含义 | 处理 | |:---:|:---|:---| | 20001 | Key/Secret 错误 | 检查配置文件凭据 | | 10001 | 缺少必要参数 | 检查 typeId/format | | 10002 | 识别失败 | 改善图片质量，开 autoRotation | | 10003 | 额度不足 | 充值或更换账号 | | 10004 | 图片格式不支持 | 转为 JPG/PNG 后重试 | | 下载失败 | consumeId 过期 | 重新识别后再下载 |

---

获取 key 和 secret

登录翔云
在个人中心获得

---

参考文档

详细 API 字段、参数枚举及返回结构，参考：翔云 OCR API 参考

运行时依赖

版本

安装命令

技能文档

功能概述

⚠️ 安全说明

⚠️ 凭据配置

配置文件

凭据加载优先级

首次配置流程

触发词参考

执行流程

阶段一：识别文档

Step 1：加载凭据

Step 2：获取图片输入

Step 3：配置识别参数

Step 4：调用识别 API

Step 5：展示结果

阶段二：导出文件（按需触发）

批量识别

图片/文件要求

错误处理

获取 key 和 secret

参考文档

相关技能推荐

`凭据加载优先级`

`触发词参考`

`Step 4：调用识别 API`

`Step 5：展示结果`

`阶段二：导出文件（按需触发）`

`批量识别`