首页龙虾技能列表 › HTML Extract — HTML内容提取

📄 HTML Extract — HTML内容提取

v0.4.0

使用 MinerU 从 HTML 页面和文件中提取内容。将 HTML 转换为干净、结构化的 Markdown,保留标题、列表、表格和文本层次结构。支持本地 HTML 文件和 URL 提取,基于 OpenDataLab(上海 AI Lab)开源的文档智能引擎 MinerU。适用于内容抓取、文档工具和需要将 HTML 转换为 Markdown 的工作流程。

0· 132·0 当前·0 累计
by @mzlzyca (mzlzyCA)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/3
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能声明的二进制依赖(mineru-open-api)和单个 MINERU_TOKEN 凭证与其 HTML 提取目的和 SKILL.md 说明相符;没有发现不成比例或无关的内容。
评估建议
该技能与其声明的目的内在一致,但在安装前应验证 mineru-open-api 包:检查 npm 包页面和 MinerU 主页链接的 GitHub 仓库(https://mineru.net / https://github.com/opendatalab)。将 MINERU_TOKEN 视为机密(不要重复使用高权限凭证),如果可能的话创建最小权限的令牌,如果之后停止使用该技能请轮换令牌。如果较为谨慎,请在隔离环境(容器或 VM)中安装 CLI 并检查其行为(发出的请求)后再用于敏感数据。...
详细分析 ▾
用途与能力
名称/描述(通过 MinerU 进行 HTML 提取)与声明的运行时要求(mineru-open-api)和单个所需环境变量(MINERU_TOKEN)一致。需要 MinerU CLI 和令牌对于此功能是预期的。
指令范围
SKILL.md 包含使用 mineru-open-api(extract、crawl)的明确命令,仅引用本地 HTML 文件、URL 和 MINERU_TOKEN。它不指导读取无关的系统文件、其他环境变量或将数据泄露到意外的端点。
安装机制
安装程序是 npm(mineru-open-api)和从 GitHub 仓库的 go install——这些是标准包源。安装第三方包会在安装/运行时运行远程代码,因此在安装前验证 npm 包和 GitHub 仓库是否是合法的 MinerU 项目。
凭证需求
仅需要一个凭证(MINERU_TOKEN)并声明为 primaryEnv。这对于调用远程 MinerU API 的 CLI 来说是相称的。未请求无关的机密或广泛的文件系统配置路径。
持久化与权限
该技能未请求 always:true 或其他提升的持久性。它是用户可调用的,并允许正常的自主调用,这是该平台的默认设置对此功能是合理的。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.4.02026/3/27

SEO:扩展描述以更好地实现 ClawHub 向量搜索发现

● 无害

安装命令 点击复制

官方npx clawhub@latest install html-extract
镜像加速npx clawhub@latest install html-extract --registry https://cn.clawhub-mirror.com

技能文档

使用 MinerU 从本地 HTML 文件中提取文本和内容转换为 Markdown。对于实时网页 URL,请使用 mineru-open-api crawl

安装

npm install -g mineru-open-api
# 或者通过 Go(macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

快速开始

# 从本地 HTML 文件提取(需要令牌)
mineru-open-api extract page.html -o ./out/
# 从远程 HTML URL 提取(需要令牌)
mineru-open-api extract https://example.com/page.html -o ./out/
# 通过 crawl 提取网页内容(需要令牌)
mineru-open-api crawl https://example.com/article -o ./out/
# 带语言提示
mineru-open-api extract page.html --language en -o ./out/

认证

需要令牌:

mineru-open-api auth  # 交互式令牌设置
export MINERU_TOKEN="your-token"  # 或者通过环境变量

在以下地址创建令牌:https://mineru.net/apiManage/token

功能

  • 支持输入:本地 .html 文件或远程 HTML URL
  • HTML 需要使用 extract(需要令牌)——不支持 flash-extract
  • 对于实时网页,请使用 mineru-open-api crawl (也需要令牌)
  • 使用 --language 设置语言提示(默认:ch,使用 en 表示英语)

注意事项

  • HTML 不支持 flash-extract——始终使用 extractcrawl
  • 默认输出到 stdout;使用 -o 保存到文件或目录
  • 所有进度/状态消息输出到 stderr;文档内容输出到 stdout
  • MinerU 由 OpenDataLab(上海 AI Lab)开源:https://github.com/opendatalab/MinerU
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务