proxy-web-fetch — 代理网页抓取

v1.0.0

通过 OpenClaw Manager 代理抓取网页并解析为结构化 Markdown 或纯文本，无需手动配置 API Key，仅需设置 WEB_FETCH_PROXY_URL 即可使用。

0· 245·1 当前·1 累计

by @whyhit2005·MIT-0

数据与API

使用场景：使用proxy-web-fetch — 代理网页抓取进行数据与API使用proxy-web-fetch — 代理网页抓取

下载技能包

License

MIT-0

最后更新

2026/4/14

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能功能（向管理代理提交 URL 并返回解析内容）逻辑清晰，但存在环境变量声明不一致问题，且必须信任所配置的代理，因为代理将接收任意 URL 及其内容。

评估建议

安装前：(1) 确认技能是否确实需要 WEB_FETCH_PROXY_URL——包元数据与 SKILL.md 矛盾，如有疑问联系作者更新元数据。(2) 仅将 WEB_FETCH_PROXY_URL 设为你完全信任的代理（代理会收到你请求的所有 URL，并可访问内部资源）。(3) 若允许自主运行，请限制代理可请求的 URL 或禁用该技能的自主调用。(4) 因源码与主页未知，建议仅从可信发布者安装，或先验证代理端点及所有者身份。...

详细分析 ▾

ℹ 用途与能力

技能名称、描述、脚本与 SKILL.md 一致：使用 curl 将 URL POST 到 Web Fetch Proxy 并返回解析后的 Markdown/文本。但注册元数据显示“无需环境变量”，而 SKILL.md 与脚本要求 WEB_FETCH_PROXY_URL，这一不匹配应在安装前澄清。

✓ 指令范围

运行时指令与附带脚本范围狭窄：仅构建含 URL 与选项的 JSON 载荷并 POST 到代理。技能不读取其他文件、系统路径或无关环境变量。注意：因代理会抓取所提供 URL，代理运营方可查看或抓取任意目标（包括内网地址），此风险与声明用途一致。

✓ 安装机制

本技能仅为指令型，附带小型 shell 包装器，无安装规范或外部下载。唯一依赖的二进制是 curl，合理且相称。

ℹ 凭证需求

脚本仅需一个环境变量 WEB_FETCH_PROXY_URL，与用途相称。注册表“所需环境变量：无”与 SKILL.md 声明需 WEB_FETCH_PROXY_URL 的不一致属于显著差异，应予以修正。此外，技能将 API Key 管理委托给管理代理——你必须信任该代理的密钥处理机制。

✓ 持久化与权限

技能不请求持久或高阶系统权限，也未设置 always:true。默认允许自主调用（正常行为）；若启用自主使用，请注意代理可能通过该代理请求任意 URL——可考虑限制代理自主性或使用 URL 白名单。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/14

代理网页抓取工具首次发布。 - 通过 OpenClaw Manager 代理抓取并解析网页内容为 Markdown 或纯文本。 - 支持缓存、保留图片、页面摘要与元数据提取等选项。 - 无需手动配置 API Key；身份验证由 Manager 内部处理。 - 通过必需的 `WEB_FETCH_PROXY_URL` 环境变量配置。 - 附带实用 shell 脚本，便于命令行使用及多种抓取场景。

● 无害

安装命令

点击复制

官方npx clawhub@latest install proxy-web-fetch

镜像加速npx clawhub@latest install proxy-web-fetch --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

proxy-web-fetch — 代理网页抓取安装说明：安装命令：npx clawhub@latest install proxy-web-fetch

需要定制？告诉我你的需求 →

技能文档

# 代理网页抓取通过 OpenClaw Manager Web Fetch Proxy 获取并解析网页内容。Manager 会自动从加密存储中注入 API 密钥——无需手动配置密钥。代理 URL 通过 WEB_FETCH_PROXY_URL 环境变量配置（必需）。若未设置，该技能将不可用。 ## 快速开始 ### 基本 cURL 用法 ``bash curl --request POST \ --url "${WEB_FETCH_PROXY_URL}/" \ --header 'Content-Type: application/json' \ --data '{ "url": "https://www.example.com" }' ` ### 脚本用法为方便使用，提供了封装好的 shell 脚本。 `bash # 基本抓取（默认返回 Markdown） ./scripts/proxy_fetch.sh --url "https://www.example.com" # 以纯文本格式抓取，不使用缓存 ./scripts/proxy_fetch.sh \ --url "https://docs.python.org/3/" \ --format text \ --no-cache # 抓取并附带图片与链接摘要 ./scripts/proxy_fetch.sh \ --url "https://news.example.com/article" \ --images-summary \ --links-summary # 抓取时不保留图片，禁用 GFM ./scripts/proxy_fetch.sh \ --url "https://blog.example.com/post" \ --no-images \ --no-gfm ` ## 认证无需手动认证——代理会在内部从 Manager 的加密密钥库读取 API 密钥。 ## API 参数参考 | 参数 | 类型 | 必需 | 默认值 | 说明 | |-----------|------|----------|---------|-------------| | url | string | ✅ | - | 待抓取网页的 URL | | timeout | integer | - | 20 | 请求超时时间（秒） | | no_cache | boolean | - | false | 禁用缓存（true/false） | | return_format | string | - | markdown | 返回格式：markdown 或 text | | retain_images | boolean | - | true | 在输出中保留图片（true/false） | | no_gfm | boolean | - | false | 禁用 GitHub Flavored Markdown（true/false） | | keep_img_data_url | boolean | - | false | 保留图片 data URL（true/false） | | with_images_summary | boolean | - | false | 包含图片摘要（true/false） | | with_links_summary | boolean | - | false | 包含链接摘要（true/false） | ## 响应结构代理返回 JSON 格式的解析后页面内容。 `json { "id": "task-id", "created": 1704067200, "request_id": "request-id", "model": "model-name", "reader_result": { "title": "Page Title", "description": "Brief page description", "url": "https://www.example.com", "content": "Parsed page content (Markdown or text)", "external": { "stylesheet": {} }, "metadata": { "keywords": "page, keywords", "viewport": "width=device-width", "description": "Meta description", "format-detection": "telephone=no" } } } ` ### 关键响应字段 | 字段 | 说明 | |-------|-------------| | reader_result.content | 主要解析内容（正文、图片、链接） | | reader_result.title | 页面标题 | | reader_result.description | 页面简要描述 | | reader_result.url | 原始页面 URL | | reader_result.metadata | 页面元数据（关键词、viewport 等） | ## 常见用例 | 场景 | 命令 | |----------|---------| | 阅读文档页面 | --url | | 仅提取文本（不含图片） | --url --no-images --format text | | 强制重新抓取（跳过缓存） | --url --no-cache | | 获取内容并附带所有摘要 | --url --images-summary --links-summary | | 超长页面，延长超时时间 | --url --timeout 60 | ## 环境要求 - OpenClaw Manager 必须运行并启用 Web Fetch Proxy。 - 必须设置 WEB_FETCH_PROXY_URL 环境变量指向代理 URL（必需，无默认值）。 - 系统路径中必须可用 curl` 命令。

License

运行时依赖

版本

安装命令

本土化适配说明

技能文档

相关技能推荐