HTML Text Extract — HTML 文本提取
v1.0.0从HTML页面(URL、文件或stdin)中提取主要内容文本。去除导航、页脚、广告和模板。可以干净地管道到readability_check或任何文本分析工具。
0· 0·0 当前·0 累计
下载技能包
License
MIT-0
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install html-text-extract
镜像加速npx clawhub@latest install html-text-extract --registry https://cn.longxiaskill.com 镜像可用
技能文档
html-extract 技能 从 HTML 页面中提取干净的主要内容文本,去除导航、页脚、广告、侧边栏和其他模板代码。使用 trafilatura 进行内容提取 —— 这是大多数学术网页抓取管道使用的库。 何时使用 当用户:
- 想要从 URL 或 HTML 文件中获取可读的文本
- 需要将页面内容输入到下游文本工具(可读性评分、情感分析、摘要、嵌入)
- 有原始 HTML 代码,想要去除到文章文本
- 正在为分析准备页面语料库
- URL:python3 html_extract.py https://example.com/page
- 文件:python3 html_extract.py page.html
- 标准输入:cat page.html | python3 html_extract.py -