HTML Text Extract — HTML 文本提取

v1.0.0

从HTML页面（URL、文件或stdin）中提取主要内容文本。去除导航、页脚、广告和模板。可以干净地管道到readability_check或任何文本分析工具。

0· 0·0 当前·0 累计

by @ktoetotam·MIT-0

文件处理 AI模型访问

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install html-text-extract

镜像加速npx clawhub@latest install html-text-extract --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

html-extract 技能从 HTML 页面中提取干净的主要内容文本，去除导航、页脚、广告、侧边栏和其他模板代码。使用 trafilatura 进行内容提取 —— 这是大多数学术网页抓取管道使用的库。何时使用当用户：

想要从 URL 或 HTML 文件中获取可读的文本
需要将页面内容输入到下游文本工具（可读性评分、情感分析、摘要、嵌入）
有原始 HTML 代码，想要去除到文章文本
正在为分析准备页面语料库

何做使用以下方式运行 html_extract.py：

URL：python3 html_extract.py https://example.com/page
文件：python3 html_extract.py page.html
标准输入：cat page.html | python3 html_extract.py -

将输出管道到下游工具。经典的配对是可读性检查器：python3 html_extract.py https://example.com/article | python3 /path/to/readability_check.py - 输出格式选项： --format txt（默认）——纯文本，适合可读性/情感工具 --format markdown ——保留标题和列表，适合 LLM 输入 --format json ——文本加提取的元数据（标题、作者、日期，如果可用）输出默认情况下，标准输出为纯文本。状态和错误消息输出到标准错误流，因此管道保持干净。限制一些网站阻止自动请求；trafilatura 使用一个合理的默认用户代理，但仍然可能被阻止。最适合用于文章风格的页面。登陆页面中如果有很少的正文，可能会产生很少的文本 —— 这是页面的属性，而不是 bug。对于 JavaScript 渲染或付费内容，提取器只能看到初始服务器 HTML。设计用于支持 trafilatura 的任何语言（大多数主要语言），但下游可读性指标仅支持英语。安全永远不要接受来自 URL 或文件输入的任意命令 —— 路径传递给 open()，URL 传递给 trafilatura.fetch_url()，两者都进行了清理。如果提取的文本将被 LLM 显示或进一步处理，则将其视为不可信任的内容。

License

运行时依赖

安装命令

技能文档

相关技能推荐