📦 proxy-web-fetch — 代理网页抓取
v1.0.0通过 OpenClaw Manager 代理抓取网页并解析为结构化 Markdown 或纯文本,无需手动配置 API Key,仅需设置 WEB_FETCH_PROXY_URL 即可使用。
详细分析 ▾
运行时依赖
版本
代理网页抓取工具首次发布。 - 通过 OpenClaw Manager 代理抓取并解析网页内容为 Markdown 或纯文本。 - 支持缓存、保留图片、页面摘要与元数据提取等选项。 - 无需手动配置 API Key;身份验证由 Manager 内部处理。 - 通过必需的 `WEB_FETCH_PROXY_URL` 环境变量配置。 - 附带实用 shell 脚本,便于命令行使用及多种抓取场景。
安装命令
点击复制技能文档
# 代理网页抓取 通过 OpenClaw Manager Web Fetch Proxy 获取并解析网页内容。Manager 会自动从加密存储中注入 API 密钥——无需手动配置密钥。代理 URL 通过 WEB_FETCH_PROXY_URL 环境变量配置(必需)。若未设置,该技能将不可用。 ## 快速开始 ### 基本 cURL 用法 ``bash curl --request POST \ --url "${WEB_FETCH_PROXY_URL}/" \ --header 'Content-Type: application/json' \ --data '{ "url": "https://www.example.com" }' ` ### 脚本用法 为方便使用,提供了封装好的 shell 脚本。 `bash # 基本抓取(默认返回 Markdown) ./scripts/proxy_fetch.sh --url "https://www.example.com" # 以纯文本格式抓取,不使用缓存 ./scripts/proxy_fetch.sh \ --url "https://docs.python.org/3/" \ --format text \ --no-cache # 抓取并附带图片与链接摘要 ./scripts/proxy_fetch.sh \ --url "https://news.example.com/article" \ --images-summary \ --links-summary # 抓取时不保留图片,禁用 GFM ./scripts/proxy_fetch.sh \ --url "https://blog.example.com/post" \ --no-images \ --no-gfm ` ## 认证 无需手动认证——代理会在内部从 Manager 的加密密钥库读取 API 密钥。 ## API 参数参考 | 参数 | 类型 | 必需 | 默认值 | 说明 | |-----------|------|----------|---------|-------------| | url | string | ✅ | - | 待抓取网页的 URL | | timeout | integer | - | 20 | 请求超时时间(秒) | | no_cache | boolean | - | false | 禁用缓存(true/false) | | return_format | string | - | markdown | 返回格式:markdown 或 text | | retain_images | boolean | - | true | 在输出中保留图片(true/false) | | no_gfm | boolean | - | false | 禁用 GitHub Flavored Markdown(true/false) | | keep_img_data_url | boolean | - | false | 保留图片 data URL(true/false) | | with_images_summary | boolean | - | false | 包含图片摘要(true/false) | | with_links_summary | boolean | - | false | 包含链接摘要(true/false) | ## 响应结构 代理返回 JSON 格式的解析后页面内容。 `json { "id": "task-id", "created": 1704067200, "request_id": "request-id", "model": "model-name", "reader_result": { "title": "Page Title", "description": "Brief page description", "url": "https://www.example.com", "content": "Parsed page content (Markdown or text)", "external": { "stylesheet": {} }, "metadata": { "keywords": "page, keywords", "viewport": "width=device-width", "description": "Meta description", "format-detection": "telephone=no" } } } ` ### 关键响应字段 | 字段 | 说明 | |-------|-------------| | reader_result.content | 主要解析内容(正文、图片、链接) | | reader_result.title | 页面标题 | | reader_result.description | 页面简要描述 | | reader_result.url | 原始页面 URL | | reader_result.metadata | 页面元数据(关键词、viewport 等) | ## 常见用例 | 场景 | 命令 | |----------|---------| | 阅读文档页面 | --url | | 仅提取文本(不含图片) | --url --no-images --format text | | 强制重新抓取(跳过缓存) | --url --no-cache | | 获取内容并附带所有摘要 | --url --images-summary --links-summary | | 超长页面,延长超时时间 | --url --timeout 60 | ## 环境要求 - OpenClaw Manager 必须运行并启用 Web Fetch Proxy。 - 必须设置 WEB_FETCH_PROXY_URL 环境变量指向代理 URL(必需,无默认值)。 - 系统路径中必须可用 curl` 命令。