首页龙虾技能列表 › coze-web-fetch — 网页内容抓取与提取

🦞 coze-web-fetch — 网页内容抓取与提取

v0.1.0

使用 coze-coding-dev-sdk,从 URL 中抓取和提取内容。支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。返回结构化输出,包含文本、图像和链接,支持文本、Markdown 和 JSON 格式输出。

0· 287·4 当前·5 累计
by @hanxueyuan·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/12
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能的代码大部分符合其声明的目的(从 URL 中抓取和提取内容),但存在不匹配和缺失的声明(特别是关于外部 SDK、依赖项安装指令和凭据处理),使得其实际运行要求和数据流不明确。
评估建议
该技能似乎能完成宣称的功能(抓取和提取内容),但在安装前应验证以下几点:1) 脚本导入 'coze-coding-dev-sdk',但技能没有声明如何/何时安装该包或 ts-node/typescript — 确认运行时环境将提供这些依赖。2) SDK 很可能将抓取的内容发送到 coze 的 API — 询问是否需要 API 密钥或账户,以及 SDK 读取哪些环境变量或配置文件(如果有)。3) README 中的“图像被重新签名”声明在可见代码中未实现 — 澄清“重新签名”的含义以及是否需要签名密钥。4) 在使用敏感 URL 之前,审查或对 coze-coding-dev-sdk 源代码进行供应商审计(或在隔离环境中运行抓取器),以查看确切的上传数据和目的地。如果需要继续,要求作者添加明确的依赖项和环境变量声明(以及对发送到 coze.com 的数据的声明),或在沙盒中运行该工具。...
详细分析 ▾
用途与能力
名称/描述和脚本一致:它使用 coze SDK 来抓取和提取内容。然而,技能需要外部包 coze-coding-dev-sdk(在 scripts/fetch.ts 中导入),但 SKILL.md 和注册元数据没有声明该包或其他 Node 依赖项(typescript/ts-node)。此外,SKILL.md 声称“图像被重新签名以实现安全访问”,但在可见代码中未实现 — 该声明不一致。
指令范围
SKILL.md 指示运行 'npx ts-node scripts/fetch.ts',这将执行调用 client.fetch(url) 的脚本。很可能通过 SDK 将抓取的文档内容发送到远程 coze 服务 — 对于此目的,这种网络传输是预期的,但在 SKILL.md 中未记录(没有明确说明内容上传到 coze.com)。指令不读取本地文件或秘密,但它们省略了任何关于 SDK 的 Config() 可能加载的所需凭据或配置的提及。
安装机制
没有安装规格(仅指令),这风险较低。然而,所需的运行时包未声明:脚本导入 'coze-coding-dev-sdk' 并使用 ts-node 执行;SKILL.md 只列出了 'npx' 作为所需项。没有明确的安装步骤,脚本可能会根据环境失败或行为不同。这是一个操作/文档缺口,而不是直接的恶意证据。
凭证需求
技能没有声明所需的环境变量或凭据,但它从外部 SDK 实例化 Config() — 该 Config 可能会读取 API 密钥或其他令牌(例如 COZE_API_KEY 或配置文件)。缺乏声明的环境变量或主要凭据是不成比例的,并且隐藏了用户数据是否会发送到需要身份验证的第三方服务。技能还做出声明(图像重新签名),这可能意味着使用签名密钥,但没有声明任何密钥。
持久化与权限
技能不是始终启用的,并且不请求提升或持久的平台权限。它不会修改其他技能或在可见文件中修改系统设置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/15

初始发布。- 使用 coze-coding-dev-sdk 从 URL 中抓取和提取内容。- 支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。- 返回包含文本、图像和链接的结构化输出。- 支持文本、Markdown 和 JSON 格式输出。- 允许在单一命令中抓取多个 URL。- 提供仅文本提取选项。

● 无害

安装命令 点击复制

官方npx clawhub@latest install coze-web-fetch
镜像加速npx clawhub@latest install coze-web-fetch --registry https://cn.clawhub-mirror.com

技能文档

从任意 URL 使用 coze-coding-dev-sdk 抓取和提取结构化内容。返回文本、图像和链接,支持多种输出格式。

快速开始

基本抓取

npx ts-node {baseDir}/scripts/fetch.ts -u "https://example.com/article"

多 URL 抓取

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/page1" \
  -u "https://example.com/page2"

Markdown 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://docs.python.org/3/tutorial/" \
  --format markdown

JSON 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/document.pdf" \
  --format json

仅文本输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/article" \
  --text-only

脚本选项

选项描述
-u, --url 要抓取的 URL(必需,支持重复)
--format jsontextmarkdown(默认:text)
--text-only仅提取文本内容
--help显示帮助消息
## 支持的文档格式
格式扩展名
PDF.pdf
Office 文档.doc, .docx, .ppt, .pptx, .xls, .xlsx, .csv
文本文件.txt, .text
电子书.epub, .mobi
XML.xml
图像.jpg, .png, .gif, .webp 等
网页.html, .htm 或任意 URL
## 输出格式

文本(默认)

``=========================================================== FETCHED CONTENT =========================================================== Title: 示例文章 URL: https://example.com/article ------------------------------------------------------------ CONTENT ------------------------------------------------------------ [TEXT] 这是主要文章内容... [IMAGE] https://example.com/image.jpg [LINK] 相关文章 -> https://example.com/related
### Markdown
markdown # 示例文章 URL: https://example.com/article

内容

这是主要文章内容... !图像
`

JSON

原始 API 响应,包含完整的内容结构。

内容类型

抓取器提取三种类型的内容:
类型描述
text从页面提取的文本内容
image带有显示信息的图像 URL
link内容中找到的超链接
## 注意事项
  • 使用 --text-only` 选项获取更干净的输出,当仅需文本时。
  • PDF 和 Office 文档将被自动解析。
  • 图像被重新签名以实现安全访问。
  • 可以在单一命令中抓取多个 URL。
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务