Web Extractor — 网页文本提取

Name: Web Extractor — 网页文本提取
Rating: 1

v1.0.0

借助 jina.ai 把任意网页快速抽成干净纯文本，再由 Agent 一键总结，新闻、博客、文章秒变要点。

1· 260·1 当前·1 累计

by @kukuxnd (kukuxNd)

AI模型访问

使用场景：使用Web Extractor — 网页文本提取进行AI模型访问使用Web Extractor — 网页文本提取

下载技能包

最后更新

2026/3/21

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能功能属实（用 r.jina.ai 提取并总结页面文本），但运行时会将任意 URL 及页面内容发送至第三方服务，并向 /tmp 写入可预测文件名，带来隐私/SSRF 与本地文件风险，未作防护。

评估建议

此技能行为与描述一致（委托 r.jina.ai 提取后让 Agent 总结 Markdown），但会导致请求的 URL 及抓取内容被第三方处理。安装或使用前请考虑： - 切勿发送敏感、私有或内网 URL（如 169.254.169.254 等元数据端点），以免泄露机密或引发 SSRF。 - 将 r.jina.ai 视为外部实体：任何被抓取用于总结的内容都会暴露给该服务；若不信任，请本地部署提取器。 - 技能使用可预测的 /tmp 文件名；如必须使用，请改用安全临时文件名（如 mktemp）避免冲突或泄露。 - 若需总结受保护内容，请先在本地抓取（安全处理凭据），清洗敏感头或参数后，用本地 HTML 转文本工具，而非把原始 URL 发给公共提取器。如需更安全方案，可要求提供仅接受你主动传入的原始 HTML 版本，或改用本地 HTML-to-text 工具。...

详细分析 ▾

✓ 用途与能力

名称/描述与指令一致：SKILL.md 让 Agent 通过 r.jina.ai 抓取页面并总结返回的 Markdown，未请求无关二进制、安装或凭据。

⚠ 指令范围

指令让 Agent 把目标页 URL POST 到外部服务（https://r.jina.ai/...）并保存结果到 /tmp，再读取并总结。功能符合声明，但存在隐私/安全风险：任意 URL（包括内网或元数据端点）会被远程抓取，页面内容暴露给第三方；且使用可预测的 /tmp 文件名，可能造成本地信息泄露或竞争条件。

✓ 安装机制

仅指令型技能，无安装脚本与代码文件，安装风险最低。

✓ 凭证需求

技能未请求环境变量、凭据或配置路径，无过度权限声明。

✓ 持久化与权限

技能未请求常驻（always: false），不修改 Agent/系统配置；默认允许 Agent 自主调用，属预期行为，无单独风险。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/21

- 首次发布 web-extractor 技能。 - 使用 r.jina.ai 从网页提取干净文本，自动去除脚本、导航、广告及多余 CSS。 - 便于 Agent 对核心内容进行快速总结。 - 支持任意新闻站、技术博客或文章页面提取。 - 保存内容为纯文本格式，便于 AI 处理。 - 默认输出路径为 /tmp/，可自定义文件位置。

● 无害

安装命令

点击复制

官方npx clawhub@latest install web-extractor

镜像加速npx clawhub@latest install web-extractor --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Web Extractor — 网页文本提取安装说明：安装命令：npx clawhub@latest install web-extractor

需要定制？告诉我你的需求 →

运行时依赖

版本

安装命令

本土化适配说明

相关技能推荐