📄 HTML Markdown — HTML 转 Markdown 工具
v0.4.0使用 MinerU 文档处理引擎将 HTML 转换为 Markdown。将 HTML 页面和文件转换为干净、可读的 Markdown 格式。支持标题、列表、表格、链接和代码块,保留结构。支持本地文件和 URL。输出干净,适合文档和内容系统使用。适用于需要将 HTML 转换为 Markdown、迁移 HTML 内容到 Markdown 系统的场景。由 OpenDataLab(上海 AI 实验室)的开源文档智能引擎 MinerU 提供支持,支持多语言内容。
详细分析 ▾
运行时依赖
版本
SEO:扩展描述以更好地支持 ClawHub 向量搜索发现
安装命令 点击复制
技能文档
使用 MinerU 将 HTML 文件转换为干净的 Markdown。
对于本地 HTML 文件使用 extract;对于实时网页使用 crawl。
Install
npm install -g mineru-open-api# 或者通过 Go(macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest
Quick Start
# 将本地 HTML 文件转换为 Markdown(需要 token)
mineru-open-api extract page.html -o ./out/# 将远程 HTML 文件转换为 Markdown(需要 token)
mineru-open-api extract https://example.com/doc.html -o ./out/
# 通过 crawl 将实时网页转换为 Markdown(需要 token)
mineru-open-api crawl https://example.com/article -o ./out/
Authentication
需要 token:
mineru-open-api auth# 交互式 token 设置
export MINERU_TOKEN="your-token"
# 或者通过环境变量
在 https://mineru.net/apiManage/token 创建 token
Capabilities
- 支持输入:本地 .html 文件或 HTTP/HTTPS URL
- 本地
.html文件:使用extract(需要 token) - 实时网页 URL:使用
crawl(需要 token) - HTML 不支持
flash-extract - 使用
--language进行语言提示(默认:ch,使用en表示英语)
Notes
- HTML 输入始终需要 token(无
flash-extract支持) - 对于需要 JavaScript 渲染的实时网页,首选
crawl - 输出默认到 stdout;使用
-o保存到文件或目录 - 所有进度/状态消息到 stderr;文档内容到 stdout
- MinerU 是由 OpenDataLab(上海 AI 实验室)开发的开源项目:https://github.com/opendatalab/MinerU
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制