详细分析 ▾
运行时依赖
版本
SEO:扩展描述以提升 ClawHub 向量搜索可见度
安装命令
点击复制技能文档
# HTML 解析 使用 MinerU 将本地 HTML 文件解析为结构化 Markdown,保留文档层级。对于在线网页,请使用 mineru-open-api crawl。 ## 安装 ``bash npm install -g mineru-open-api # or via Go (macOS/Linux): go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest ` ## 快速开始 `bash # Parse a local HTML file (requires token) mineru-open-api extract page.html -o ./out/ # Parse a remote HTML URL (requires token) mineru-open-api extract https://example.com/page.html -o ./out/ # Parse a live web page (requires token) mineru-open-api crawl https://example.com/article -o ./out/ ` ## 认证 需要 token: `bash mineru-open-api auth # Interactive token setup export MINERU_TOKEN="your-token" # Or via environment variable ` 创建 token:https://mineru.net/apiManage/token ## 功能 - 支持输入:本地 .html 文件或远程 HTML URL - HTML 需要使用 extract 或 crawl(需 token) - HTML 不支持 flash-extract - 语言提示使用 --language(默认:ch,英文用 en) ## 注意事项 - HTML 不支持 flash-extract — 请使用 extract 或 crawl - 对于含动态内容的在线网页,请用 crawl 而非 extract - 默认输出到 stdout;使用 -o