📦 Web Extractor — 网页文本提取

v1.0.0

借助 jina.ai 把任意网页快速抽成干净纯文本,再由 Agent 一键总结,新闻、博客、文章秒变要点。

1· 260·1 当前·1 累计
kukuxnd 头像by @kukuxnd (kukuxNd)
下载技能包
最后更新
2026/3/21
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能功能属实(用 r.jina.ai 提取并总结页面文本),但运行时会将任意 URL 及页面内容发送至第三方服务,并向 /tmp 写入可预测文件名,带来隐私/SSRF 与本地文件风险,未作防护。
评估建议
此技能行为与描述一致(委托 r.jina.ai 提取后让 Agent 总结 Markdown),但会导致请求的 URL 及抓取内容被第三方处理。安装或使用前请考虑: - 切勿发送敏感、私有或内网 URL(如 169.254.169.254 等元数据端点),以免泄露机密或引发 SSRF。 - 将 r.jina.ai 视为外部实体:任何被抓取用于总结的内容都会暴露给该服务;若不信任,请本地部署提取器。 - 技能使用可预测的 /tmp 文件名;如必须使用,请改用安全临时文件名(如 mktemp)避免冲突或泄露。 - 若需总结受保护内容,请先在本地抓取(安全处理凭据),清洗敏感头或参数后,用本地 HTML 转文本工具,而非把原始 URL 发给公共提取器。 如需更安全方案,可要求提供仅接受你主动传入的原始 HTML 版本,或改用本地 HTML-to-text 工具。...
详细分析 ▾
用途与能力
名称/描述与指令一致:SKILL.md 让 Agent 通过 r.jina.ai 抓取页面并总结返回的 Markdown,未请求无关二进制、安装或凭据。
指令范围
指令让 Agent 把目标页 URL POST 到外部服务(https://r.jina.ai/...)并保存结果到 /tmp,再读取并总结。功能符合声明,但存在隐私/安全风险:任意 URL(包括内网或元数据端点)会被远程抓取,页面内容暴露给第三方;且使用可预测的 /tmp 文件名,可能造成本地信息泄露或竞争条件。
安装机制
仅指令型技能,无安装脚本与代码文件,安装风险最低。
凭证需求
技能未请求环境变量、凭据或配置路径,无过度权限声明。
持久化与权限
技能未请求常驻(always: false),不修改 Agent/系统配置;默认允许 Agent 自主调用,属预期行为,无单独风险。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/21

- 首次发布 web-extractor 技能。 - 使用 r.jina.ai 从网页提取干净文本,自动去除脚本、导航、广告及多余 CSS。 - 便于 Agent 对核心内容进行快速总结。 - 支持任意新闻站、技术博客或文章页面提取。 - 保存内容为纯文本格式,便于 AI 处理。 - 默认输出路径为 /tmp/,可自定义文件位置。

无害

安装命令

点击复制
官方npx clawhub@latest install web-extractor
镜像加速npx clawhub@latest install web-extractor --registry https://cn.longxiaskill.com
数据来源ClawHub ↗ · 中文优化:龙虾技能库