coze-web-fetch — 网页内容抓取与提取

Name: coze-web-fetch — 网页内容抓取与提取
Author: hanxueyuan

hanxueyuan

🦞 coze-web-fetch — 网页内容抓取与提取

v0.1.0

使用 coze-coding-dev-sdk，从 URL 中抓取和提取内容。支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。返回结构化输出，包含文本、图像和链接，支持文本、Markdown 和 JSON 格式输出。

0· 287·4 当前·5 累计

by @hanxueyuan·MIT-0

文件处理文档工具浏览器自动化开发工具网络工具

下载技能包

License

MIT-0

最后更新

2026/4/12

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的代码大部分符合其声明的目的（从 URL 中抓取和提取内容），但存在不匹配和缺失的声明（特别是关于外部 SDK、依赖项安装指令和凭据处理），使得其实际运行要求和数据流不明确。

评估建议

该技能似乎能完成宣称的功能（抓取和提取内容），但在安装前应验证以下几点：1) 脚本导入 'coze-coding-dev-sdk'，但技能没有声明如何/何时安装该包或 ts-node/typescript — 确认运行时环境将提供这些依赖。2) SDK 很可能将抓取的内容发送到 coze 的 API — 询问是否需要 API 密钥或账户，以及 SDK 读取哪些环境变量或配置文件（如果有）。3) README 中的“图像被重新签名”声明在可见代码中未实现 — 澄清“重新签名”的含义以及是否需要签名密钥。4) 在使用敏感 URL 之前，审查或对 coze-coding-dev-sdk 源代码进行供应商审计（或在隔离环境中运行抓取器），以查看确切的上传数据和目的地。如果需要继续，要求作者添加明确的依赖项和环境变量声明（以及对发送到 coze.com 的数据的声明），或在沙盒中运行该工具。...

详细分析 ▾

⚠ 用途与能力

名称/描述和脚本一致：它使用 coze SDK 来抓取和提取内容。然而，技能需要外部包 coze-coding-dev-sdk（在 scripts/fetch.ts 中导入），但 SKILL.md 和注册元数据没有声明该包或其他 Node 依赖项（typescript/ts-node）。此外，SKILL.md 声称“图像被重新签名以实现安全访问”，但在可见代码中未实现 — 该声明不一致。

⚠ 指令范围

SKILL.md 指示运行 'npx ts-node scripts/fetch.ts'，这将执行调用 client.fetch(url) 的脚本。很可能通过 SDK 将抓取的文档内容发送到远程 coze 服务 — 对于此目的，这种网络传输是预期的，但在 SKILL.md 中未记录（没有明确说明内容上传到 coze.com）。指令不读取本地文件或秘密，但它们省略了任何关于 SDK 的 Config() 可能加载的所需凭据或配置的提及。

ℹ 安装机制

没有安装规格（仅指令），这风险较低。然而，所需的运行时包未声明：脚本导入 'coze-coding-dev-sdk' 并使用 ts-node 执行；SKILL.md 只列出了 'npx' 作为所需项。没有明确的安装步骤，脚本可能会根据环境失败或行为不同。这是一个操作/文档缺口，而不是直接的恶意证据。

⚠ 凭证需求

技能没有声明所需的环境变量或凭据，但它从外部 SDK 实例化 Config() — 该 Config 可能会读取 API 密钥或其他令牌（例如 COZE_API_KEY 或配置文件）。缺乏声明的环境变量或主要凭据是不成比例的，并且隐藏了用户数据是否会发送到需要身份验证的第三方服务。技能还做出声明（图像重新签名），这可能意味着使用签名密钥，但没有声明任何密钥。

✓ 持久化与权限

技能不是始终启用的，并且不请求提升或持久的平台权限。它不会修改其他技能或在可见文件中修改系统设置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/15

初始发布。- 使用 coze-coding-dev-sdk 从 URL 中抓取和提取内容。- 支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。- 返回包含文本、图像和链接的结构化输出。- 支持文本、Markdown 和 JSON 格式输出。- 允许在单一命令中抓取多个 URL。- 提供仅文本提取选项。

● 无害

安装命令点击复制

官方npx clawhub@latest install coze-web-fetch

镜像加速npx clawhub@latest install coze-web-fetch --registry https://cn.clawhub-mirror.com

技能文档

从任意 URL 使用 coze-coding-dev-sdk 抓取和提取结构化内容。返回文本、图像和链接，支持多种输出格式。

快速开始

基本抓取

npx ts-node {baseDir}/scripts/fetch.ts -u "https://example.com/article"

多 URL 抓取

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/page1" \
  -u "https://example.com/page2"

Markdown 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://docs.python.org/3/tutorial/" \
  --format markdown

JSON 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/document.pdf" \
  --format json

仅文本输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/article" \
  --text-only

脚本选项

选项	描述
`-u, --url`	要抓取的 URL（必需，支持重复）
`--format`	`json`、`text`、`markdown`（默认：text）
`--text-only`	仅提取文本内容
`--help`	显示帮助消息

## 支持的文档格式

格式	扩展名
PDF	.pdf
Office 文档	.doc, .docx, .ppt, .pptx, .xls, .xlsx, .csv
文本文件	.txt, .text
电子书	.epub, .mobi
XML	.xml
图像	.jpg, .png, .gif, .webp 等
网页	.html, .htm 或任意 URL

## 输出格式

文本（默认）

``

===========================================================
FETCHED CONTENT
===========================================================
Title: 示例文章
URL: https://example.com/article
------------------------------------------------------------
CONTENT
------------------------------------------------------------
[TEXT] 这是主要文章内容...
[IMAGE] https://example.com/image.jpg
[LINK] 相关文章 -> https://example.com/related
### Markdown
markdown
# 示例文章
URL: https://example.com/article

内容
这是主要文章内容...
!图像
相关文章

`


JSON
原始 API 响应，包含完整的内容结构。
内容类型
抓取器提取三种类型的内容：
类型 描述
text 从页面提取的文本内容
image 带有显示信息的图像 URL
link 内容中找到的超链接## 注意事项

使用 --text-only` 选项获取更干净的输出，当仅需文本时。
PDF 和 Office 文档将被自动解析。
图像被重新签名以实现安全访问。
可以在单一命令中抓取多个 URL。

Fetch and extract structured content from any URL using coze-coding-dev-sdk. Returns text, images, and links in various output formats.

Quick Start

Basic Fetch

npx ts-node {baseDir}/scripts/fetch.ts -u "https://example.com/article"

Multiple URLs

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/page1" \
  -u "https://example.com/page2"

Output as Markdown

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://docs.python.org/3/tutorial/" \
  --format markdown

Output as JSON

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/document.pdf" \
  --format json

Text Only (No Images/Links)

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/article" \
  --text-only

Script Options

Option	Description
`-u, --url`	URL to fetch (required, can be repeated)
`--format`	`json`, `text`, `markdown` (default: text)
`--text-only`	Extract text content only
`--help`	Show help message

Supported Document Formats

Format	Extensions
PDF	.pdf
Office Documents	.doc, .docx, .ppt, .pptx, .xls, .xlsx, .csv
Text Files	.txt, .text
E-books	.epub, .mobi
XML	.xml
Images	.jpg, .png, .gif, .webp, etc.
Web Pages	.html, .htm, or any URL

Output Formats

Text (default)

============================================================
FETCHED CONTENT
============================================================
Title: Example Article
URL: https://example.com/article
------------------------------------------------------------
CONTENT
------------------------------------------------------------
[TEXT] This is the main article content...
[IMAGE] https://example.com/image.jpg[LINK] Related Article -> https://example.com/related

Markdown

# Example Article
URL: https://example.com/article
Content
This is the main article content...
!Image
Related Article

JSON

Raw API response with full content structure.

Content Types

The fetcher extracts three types of content:

Type	Description
text	Extracted text content from the page
image	Image URLs with display information
link	Hyperlinks found in the content

Notes

Use --text-only for cleaner output when you only need text
PDF and Office documents are automatically parsed
Images are re-signed for secure access
Multiple URLs can be fetched in a single command

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

类型	描述
text	从页面提取的文本内容
image	带有显示信息的图像 URL
link	内容中找到的超链接

License

运行时依赖

版本

安装命令 点击复制

技能文档

快速开始

基本抓取

多 URL 抓取

Markdown 输出

JSON 输出

仅文本输出

脚本选项

文本（默认）

内容

JSON

内容类型

Quick Start

Basic Fetch

Multiple URLs

Output as Markdown

Output as JSON

Text Only (No Images/Links)

Script Options

Supported Document Formats

Output Formats

Text (default)

Markdown

Content

JSON

Content Types

Notes

安装命令点击复制