首页龙虾技能列表 › Textin Parse — textin-parse — Textin 文档解析 API 封装

Textin Parse — textin-parse — Textin 文档解析 API 封装

v1.0.0

Textin 文档解析 API 封装,支持上传图片/pdf/word/html/excel/ppt/txt 等格式进行版面检测、文字识别、表格识别,生成 markdown 文档及结构化数据。用于:(1) 解析 PDF/图片/文档为 markdown;(2) 提取文档结构化数据;(3) 识别表格和公式;(4) 提取目录。

2· 139·0 当前·0 累计
by @kingjus (KingJus)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/23
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
技能的代码和指令与其声明的用途(调用 Textin 的文档解析 API)相符;它仅请求服务凭证并在本地存储,没有令人意外的网络端点或无关的权限。
评估建议
这个技能似乎能实现其声称的功能:向 Textin 的 API 发送文件或文件 URL,并返回解析后的 markdown/结构化数据。在安装前:(1) 验证您信任 Textin 服务和 API 域名(api.textin.com),因为文档内容将被上传到该第三方;(2) 注意凭证以明文形式存储在 ~/.openclaw/textin-config.json 中——考虑将其存储在安全的凭证管理器中或在不需要时删除文件;(3) 避免向该技能提供高权限或无关的密钥;(4) 如果处理敏感文档,请检查 Textin 的数据保留/隐私政策,并考虑脱敏或本地替代方案;(5) 如果您怀疑 API 密钥已被泄露,请撤销它们。...
详细分析 ▾
用途与能力
名称/描述、包含的脚本和运行时指令始终实现一个 Textin 文档解析客户端,将文件/URL 上传到 https://api.textin.com/ai/service/v1/pdf_to_markdown。请求的输入(x-ti-app-id 和 x-ti-secret-code)是适当的且符合预期。
指令范围
SKILL.md 和脚本将操作限制为配置凭证和发送文件/URL 到 Textin API 进行解析。注意:使用该技能会将文档内容(或 URL)上传到第三方服务——这是预期行为,但对隐私/合规性很重要。
安装机制
没有安装规范;该技能仅是指令加脚本。提供的 shell 和 Python 脚本在本地运行,需要标准工具(bash、python3、curl/requests)。不存在从不受信任的 URL 下载或安装包的情况。
凭证需求
该技能仅请求 Textin App ID 和 Secret,与其功能相称。实现将凭证以未加密方式存储在 ~/.openclaw/textin-config.json 中——功能正常,但用户应注意明文存储/隐私风险。
持久化与权限
always=false 且该技能不请求提升的/系统范围的权限。它确实会将凭证持久化到用户主目录的文件中,这对于客户端来说是正常的,但会在磁盘上创建持久的密钥,用户可能需要管理或加密。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/23

textin-parse 首次发布 - 提供文档解析 API 封装,支持图片、PDF、Word、Excel、PPT、HTML、Txt 等格式。支持版面检测、文字识别、表格和公式识别,生成 Markdown 文档及结构化数据。支持多种文件输出格式和解析模式,可选参数丰富。支持表格、目录结构、图像等内容提取。明确注册、配置和使用流程说明。

● 无害

安装命令 点击复制

官方npx clawhub@latest install textin-parse
镜像加速npx clawhub@latest install textin-parse --registry https://cn.clawhub-mirror.com

技能文档

快速开始

第1步:注册获取 API 凭证

首次使用需要先注册 Textin 账号并获取 API 凭证:
  • 访问注册链接:https://www.textin.com/register/code/3EJS7P
  • 注册完成后,登录并进入"开发者与账户信息"页面
  • 获取 x-ti-app-idx-ti-secret-code

获取凭证后,告诉我这两个值,我会帮你配置。

第2步:配置凭证

告诉我你的 x-ti-app-idx-ti-secret-code,我会保存到配置文件中。

第3步:解析文档

配置好凭证后,你可以这样使用:
解析这个PDF文件
解析这张图片为markdown
提取这个文档的目录结构

支持的文件格式

  • 图片:png, jpg, jpeg, bmp, tiff, webp
  • 文档:pdf, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf
  • 文件大小:最大 500MB

可选参数说明

解析模式 (parse_mode)

  • auto - 由引擎自动选择,适用范围最广
  • scan - 文档统一当成图片解析
  • lite - 轻量版,只输出表格和文字结果
  • parse - 仅电子档文字解析,速度最快
  • vlm - 视觉语言模型解析模式

默认:scan

表格格式 (table_flavor)

  • html - 按 HTML 语法输出表格
  • md - 按 Markdown 语法输出表格
  • none - 不进行表格识别

默认:html

获取图片 (get_image)

  • none - 不返回任何图像
  • page - 返回每一页的整页图像
  • objects - 返回页面内的子图像
  • both - 返回整页图像和图像对象

默认:objects

标题层级 (apply_document_tree)

  • 1 - 生成标题层级
  • 0 - 不生成标题

默认:1

公式识别 (formula_level)

  • 0 - 全识别
  • 1 - 仅识别行间公式
  • 2 - 不识别

默认:0

去水印 (remove_watermark)

  • 0 - 不去水印
  • 1 - 去水印

默认:0

图表识别 (apply_chart)

  • 0 - 不开启图表识别
  • 1 - 开启图表识别,以表格形式输出

默认:0

其他常用参数

  • pdf_pwd - PDF 密码(加密文档时使用)
  • page_start - 从第几页开始解析(PDF 时有效)
  • page_count - 解析的页数(默认 1000,最大 1000)
  • dpi - 坐标基准(72/144/216,默认 144)
  • get_excel - 是否返回 Excel(0 或 1)
  • crop_dewarp - 是否切边矫正(0 或 1)
  • markdown_details - 是否返回 detail 字段(0 或 1,默认 1)
  • page_details - 是否返回 pages 字段(0 或 1,默认 1)

使用示例

基础用法

帮我解析这个PDF文件

指定参数

用 parse 模式解析这个PDF
用 lite 模式解析,输出 markdown 表格
解析这个文件并提取目录

错误码处理

常见错误:
  • 40101 - App ID 或 Secret 为空
  • 40102 - App ID 或 Secret 无效
  • 40003 - 余额不足
  • 40303 - 文件类型不支持

如遇错误,请检查凭证是否正确,或咨询用户。

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务