首页龙虾技能列表 › Web Scraper — 网页爬虫

Web Scraper — 网页爬虫

v1.0.0

提取和导出结构化网页数据(文本、表格、图像)到 JSON、CSV、Markdown 或 SQL 格式,遵守道德和法律爬取规范。

1· 509·1 当前·1 累计
by @rupertnt034·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/13
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能的指令、要求和行为与网页爬虫一致 —— 它是一个仅包含指令的爬虫模板,没有意外的凭据或安装请求。
评估建议
该技能是一个仅包含指令的网页爬虫,根据清单看来是一致的低风险技能(无安装、无凭据)。在使用前,请考虑:1)法律/道德风险 — 确保您有权爬取目标网站,尊重 robots.txt 和服务条款;2)范围控制 — 限制爬取到特定的允许列表,设置保守的深度/速率限制,以避免意外的广泛爬取或 DOS 攻击;3)敏感目标 — 不允许代理爬取内部/私有 URL 或需要身份验证的网站,除非您信任结果;4)数据外泄风险 — 尽管技能不请求凭据,爬取的数据仍可能通过代理/平台传输到其他地方,请审查平台网络/输出策略;5)测试 — 先在小型公共测试网站上测试。如果您想要更强的保证,请要求对任何多页爬取显式用户确认,并在 SKILL.md 或平台策略中添加允许列表/拒绝列表执行步骤。...
详细分析 ▾
用途与能力
名称和描述与 SKILL.md 匹配。请求的功能(数据提取、格式、速率限制、代理支持、robots.txt)适合网页爬虫,没有不相关的环境变量、二进制文件或安装步骤。
指令范围
SKILL.md 是高级的,描述了典型的爬取命令和最佳实践(尊重 robots.txt、速率限制、UA 旋转)。它不指示读取本地文件或环境变量,也不指向意外的外部端点。然而,它是故意宽松的(例如,'crawl [网站] depth [n]'),缺乏保障措施的执行——因此,使用此技能的代理可能会被指示爬取广泛的网站,除非施加额外的运行时限制或确认。
安装机制
没有安装规格和代码文件,因此没有写入磁盘,也没有第三方包下载风险。
凭证需求
没有环境变量、凭据或配置路径被请求。宣布的秘密缺失与仅包含指令的爬虫成比例。
持久化与权限
always 为 false 且该技能不请求持久或高级权限。它不尝试修改其他技能或系统范围的设置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/13

Web Scraper 技能的初始发布。- 从网站提取文本、表格和媒体。- 支持输出到 JSON、CSV、Markdown 和 SQL。- 特性包括速率限制、缓存、重试、代理支持和强大的错误处理。- 遵守道德爬取标准,包括 robots.txt 和法律合规。- 包括简单命令用于以各种格式爬取和导出数据。

● 无害

安装命令 点击复制

官方npx clawhub@latest install rupert-web-scraper
镜像加速npx clawhub@latest install rupert-web-scraper --registry https://cn.clawhub-mirror.com

技能文档

简介

该技能用于提取和导出结构化网页数据(文本、表格、图像)到 JSON、CSV、Markdown 或 SQL 格式,遵守道德和法律爬取规范。

功能

  • 提取文本、表格和媒体 từ网站
  • 支持输出到 JSON、CSV、Markdown 和 SQL
  • 特性包括速率限制、缓存、重试、代理支持和强大的错误处理
  • 遵守道德爬取标准,包括 robots.txt 和法律合规
  • 包括简单命令用于以各种格式爬取和导出数据

使用示例

# 示例命令:爬取网站并以 JSON 格式输出
web-scraper crawl https://example.com --output json

注意事项

请在使用前阅读 安全评估 部分,以确保合法、安全的使用。

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务