📄 HTML Parse — HTML转Markdown

v0.4.0

调用 MinerU CLI,将任意 HTML 文档一键解析为结构清晰的 Markdown,完整保留标题层级、列表、表格与链接,方便后续编辑、存档或知识库构建。

0· 139·1 当前·1 累计
mzlzyca 头像by @mzlzyca (mzlzyCA)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/3
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能的需求与运行时指令与其声明用途一致(使用 MinerU CLI 及 token 将 HTML 转为结构化 Markdown),未提出过度或意外广泛的权限请求。
评估建议
该技能逻辑一致:将 HTML 解析委托给 MinerU CLI,仅需 MINERU_TOKEN。安装前请核实 mineru-open-api 包的来源(npm 页或 GitHub 仓库)及 mineru.net 的可信度。妥善保管 MINERU_TOKEN,复核其权限,避免解析敏感或私有 HTML,除非你接受内容将被上传至 MinerU 服务并可能产生费用或被存储。若需更高控制力,可考虑使用经审计的本地解析器替代远程 API。...
详细分析 ▾
用途与能力
名称/描述(HTML → 结构化 Markdown)与声明的二进制(mineru-open-api)及唯一所需环境变量(MINERU_TOKEN)一致。所请求的 CLI 与 token 是该解析流程的正当需求。
指令范围
SKILL.md 仅指示使用 mineru-open-api 命令(extract、crawl、auth)、安装 CLI 并设置 MINERU_TOKEN,未引导代理读取无关文件或凭证,也未将数据外泄至意外端点。
安装机制
安装选项为标准包源:npm 包 mineru-open-api 及来自 github.com/opendatalab 的 Go install,无任意下载 URL 或从未知主机提取步骤。
凭证需求
仅需 MINERU_TOKEN(已声明为主凭证),权限合理。注意:使用该技能会将 HTML 内容发送至 MinerU 服务(远程 API),因此 token 授予 API 访问权,可能暴露上传内容或产生费用——除非信任 MinerU 及 token 权限,否则避免发送敏感文档。
持久化与权限
技能非常驻,通过普通代理调用,未请求持久系统级变更或访问其他技能配置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.4.02026/3/27

SEO:扩展描述以提升 ClawHub 向量搜索可见度

无害

安装命令

点击复制
官方npx clawhub@latest install html-parse
镜像加速npx clawhub@latest install html-parse --registry https://cn.longxiaskill.com

技能文档

# HTML 解析 使用 MinerU 将本地 HTML 文件解析为结构化 Markdown,保留文档层级。对于在线网页,请使用 mineru-open-api crawl。 ## 安装 ``bash npm install -g mineru-open-api # or via Go (macOS/Linux): go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest ` ## 快速开始 `bash # Parse a local HTML file (requires token) mineru-open-api extract page.html -o ./out/ # Parse a remote HTML URL (requires token) mineru-open-api extract https://example.com/page.html -o ./out/ # Parse a live web page (requires token) mineru-open-api crawl https://example.com/article -o ./out/ ` ## 认证 需要 token: `bash mineru-open-api auth # Interactive token setup export MINERU_TOKEN="your-token" # Or via environment variable ` 创建 token:https://mineru.net/apiManage/token ## 功能 - 支持输入:本地 .html 文件或远程 HTML URL - HTML 需要使用 extractcrawl(需 token) - HTML 不支持 flash-extract - 语言提示使用 --language(默认:ch,英文用 en) ## 注意事项 - HTML 不支持 flash-extract — 请使用 extractcrawl - 对于含动态内容的在线网页,请用 crawl 而非 extract - 默认输出到 stdout;使用 -o

` 保存到文件或目录 - 所有进度/状态信息输出到 stderr;文档内容输出到 stdout - MinerU 由 OpenDataLab(上海人工智能实验室)开源:https://github.com/opendatalab/MinerU

数据来源ClawHub ↗ · 中文优化:龙虾技能库