📦 proxy-web-fetch — 代理网页抓取

v1.0.0

通过 OpenClaw Manager 代理抓取网页并解析为结构化 Markdown 或纯文本,无需手动配置 API Key,仅需设置 WEB_FETCH_PROXY_URL 即可使用。

0· 245·1 当前·1 累计
whyhit2005 头像by @whyhit2005·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/14
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能功能(向管理代理提交 URL 并返回解析内容)逻辑清晰,但存在环境变量声明不一致问题,且必须信任所配置的代理,因为代理将接收任意 URL 及其内容。
评估建议
安装前:(1) 确认技能是否确实需要 WEB_FETCH_PROXY_URL——包元数据与 SKILL.md 矛盾,如有疑问联系作者更新元数据。(2) 仅将 WEB_FETCH_PROXY_URL 设为你完全信任的代理(代理会收到你请求的所有 URL,并可访问内部资源)。(3) 若允许自主运行,请限制代理可请求的 URL 或禁用该技能的自主调用。(4) 因源码与主页未知,建议仅从可信发布者安装,或先验证代理端点及所有者身份。...
详细分析 ▾
用途与能力
技能名称、描述、脚本与 SKILL.md 一致:使用 curl 将 URL POST 到 Web Fetch Proxy 并返回解析后的 Markdown/文本。但注册元数据显示“无需环境变量”,而 SKILL.md 与脚本要求 WEB_FETCH_PROXY_URL,这一不匹配应在安装前澄清。
指令范围
运行时指令与附带脚本范围狭窄:仅构建含 URL 与选项的 JSON 载荷并 POST 到代理。技能不读取其他文件、系统路径或无关环境变量。注意:因代理会抓取所提供 URL,代理运营方可查看或抓取任意目标(包括内网地址),此风险与声明用途一致。
安装机制
本技能仅为指令型,附带小型 shell 包装器,无安装规范或外部下载。唯一依赖的二进制是 curl,合理且相称。
凭证需求
脚本仅需一个环境变量 WEB_FETCH_PROXY_URL,与用途相称。注册表“所需环境变量:无”与 SKILL.md 声明需 WEB_FETCH_PROXY_URL 的不一致属于显著差异,应予以修正。此外,技能将 API Key 管理委托给管理代理——你必须信任该代理的密钥处理机制。
持久化与权限
技能不请求持久或高阶系统权限,也未设置 always:true。默认允许自主调用(正常行为);若启用自主使用,请注意代理可能通过该代理请求任意 URL——可考虑限制代理自主性或使用 URL 白名单。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/14

代理网页抓取工具首次发布。 - 通过 OpenClaw Manager 代理抓取并解析网页内容为 Markdown 或纯文本。 - 支持缓存、保留图片、页面摘要与元数据提取等选项。 - 无需手动配置 API Key;身份验证由 Manager 内部处理。 - 通过必需的 `WEB_FETCH_PROXY_URL` 环境变量配置。 - 附带实用 shell 脚本,便于命令行使用及多种抓取场景。

无害

安装命令

点击复制
官方npx clawhub@latest install proxy-web-fetch
镜像加速npx clawhub@latest install proxy-web-fetch --registry https://cn.longxiaskill.com

技能文档

# 代理网页抓取 通过 OpenClaw Manager Web Fetch Proxy 获取并解析网页内容。Manager 会自动从加密存储中注入 API 密钥——无需手动配置密钥。代理 URL 通过 WEB_FETCH_PROXY_URL 环境变量配置(必需)。若未设置,该技能将不可用。 ## 快速开始 ### 基本 cURL 用法 ``bash curl --request POST \ --url "${WEB_FETCH_PROXY_URL}/" \ --header 'Content-Type: application/json' \ --data '{ "url": "https://www.example.com" }' ` ### 脚本用法 为方便使用,提供了封装好的 shell 脚本。 `bash # 基本抓取(默认返回 Markdown) ./scripts/proxy_fetch.sh --url "https://www.example.com" # 以纯文本格式抓取,不使用缓存 ./scripts/proxy_fetch.sh \ --url "https://docs.python.org/3/" \ --format text \ --no-cache # 抓取并附带图片与链接摘要 ./scripts/proxy_fetch.sh \ --url "https://news.example.com/article" \ --images-summary \ --links-summary # 抓取时不保留图片,禁用 GFM ./scripts/proxy_fetch.sh \ --url "https://blog.example.com/post" \ --no-images \ --no-gfm ` ## 认证 无需手动认证——代理会在内部从 Manager 的加密密钥库读取 API 密钥。 ## API 参数参考 | 参数 | 类型 | 必需 | 默认值 | 说明 | |-----------|------|----------|---------|-------------| | url | string | ✅ | - | 待抓取网页的 URL | | timeout | integer | - | 20 | 请求超时时间(秒) | | no_cache | boolean | - | false | 禁用缓存(true/false) | | return_format | string | - | markdown | 返回格式:markdowntext | | retain_images | boolean | - | true | 在输出中保留图片(true/false) | | no_gfm | boolean | - | false | 禁用 GitHub Flavored Markdown(true/false) | | keep_img_data_url | boolean | - | false | 保留图片 data URL(true/false) | | with_images_summary | boolean | - | false | 包含图片摘要(true/false) | | with_links_summary | boolean | - | false | 包含链接摘要(true/false) | ## 响应结构 代理返回 JSON 格式的解析后页面内容。 `json { "id": "task-id", "created": 1704067200, "request_id": "request-id", "model": "model-name", "reader_result": { "title": "Page Title", "description": "Brief page description", "url": "https://www.example.com", "content": "Parsed page content (Markdown or text)", "external": { "stylesheet": {} }, "metadata": { "keywords": "page, keywords", "viewport": "width=device-width", "description": "Meta description", "format-detection": "telephone=no" } } } ` ### 关键响应字段 | 字段 | 说明 | |-------|-------------| | reader_result.content | 主要解析内容(正文、图片、链接) | | reader_result.title | 页面标题 | | reader_result.description | 页面简要描述 | | reader_result.url | 原始页面 URL | | reader_result.metadata | 页面元数据(关键词、viewport 等) | ## 常见用例 | 场景 | 命令 | |----------|---------| | 阅读文档页面 | --url | | 仅提取文本(不含图片) | --url --no-images --format text | | 强制重新抓取(跳过缓存) | --url --no-cache | | 获取内容并附带所有摘要 | --url --images-summary --links-summary | | 超长页面,延长超时时间 | --url --timeout 60 | ## 环境要求 - OpenClaw Manager 必须运行并启用 Web Fetch Proxy。 - 必须设置 WEB_FETCH_PROXY_URL 环境变量指向代理 URL(必需,无默认值)。 - 系统路径中必须可用 curl` 命令。

数据来源ClawHub ↗ · 中文优化:龙虾技能库