首页龙虾技能列表 › AI Data Scraper — AI 数据抓取器 — 自动化数据提取与清洗

AI Data Scraper — AI 数据抓取器 — 自动化数据提取与清洗

v1.0.0

自动化网页和 API 数据提取,支持数据清洗、格式化、定时调度、代理支持、重试、去重和实时监控。注意:部分宣称功能未实现。

1· 1,400·6 当前·6 累计
by @arthasking123 (ZhangYang)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/8
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
可疑
medium confidence
该包包含一个非常简单的 shell 抓取器,但 README 和描述声称许多未实现的高级功能(代理池、重试、去重、定时、监控、计费);运行指令和包脚本也不匹配 shell 脚本的简单位置参数接口。
评估建议
该包看起来更像是一个粗糙的包而非恶意包:README 和营销承诺许多未在交付脚本中实现的高级功能。安装或使用前,请考虑:1) 不要期待代理池、重试、去重、定时或监控 — 它们未实现。2) 在隔离目录或沙盒(非主目录或仓库根)中测试,因为脚本会写入 ./output。3) 使用安全的公共 URL 手动运行以确认行为和网络调用(它使用 curl 获取您提供的任何 URL)。4) 如果需要宣称的功能,请要求作者解释或实现,或者检查/修改脚本以添加正确的标志解析、重试、代理使用和安全路径处理。5) 由于 SKILL.md 示例使用标志语法但脚本使用位置参数,请避免自动化/生产使用,直到接口修复。如果您需要更高的保证(例如,敏感数据),请不要安装此技能,直到不匹配项得到解决并且作者提供审计代码。...
详细分析 ▾
用途与能力
技能描述和 SKILL.md 广告宣传高级抓取能力(代理池支持、重试、去重、实时监控、定时、计费等),但包含的代码(main.sh 和 package.json)仅实现了一个最小的 curl 基于的抓取器,写入 ./output,不实现代理、重试、去重、监控、cron 定时或支付集成。这是宣称目的和实际能力之间的过度声明/不匹配。
指令范围
SKILL.md 显示使用标志样式命令的示例调用(openclaw run scraper --url <...> --cron <...>),但提供的 main.sh 期望位置参数,并不解析 --url/--api/--format/--cron 标志。SKILL.md 承诺的功能(cron 定时、API 集成)不在指令或脚本中。指令不要求代理读取无关的凭证或文件(良好),但它们与交付的代码不一致。
安装机制
没有安装规格(仅指令),这风险较低。然而,技能捆绑代码文件(main.sh 和 package.json),尽管声称仅为指令;这本身不是恶意的,但不一致,意味着安装后代码将存在于磁盘上。代码是普通 shell 仅依赖 curl 存在。
凭证需求
技能不请求环境变量、不请求凭证,并不指定配置路径。这与脚本的最小行为成比例(它简单地调用 curl 并写入文件)。
持久化与权限
always:false 和正常调用标志。技能不请求持久或系统范围权限,并不修改其他技能或系统配置。它写入本地 './output' 目录(相对),如果在敏感工作目录运行,可能会覆盖文件 — 这是一个正常的文件 I/O 关注点,而非提升权限。
安装前注意事项
  1. 不要期待代理池、重试、去重、定时或监控 — 它们未实现。
  2. 在隔离目录或沙盒(非主目录或仓库根)中测试,因为脚本会写入 ./output。
  3. 使用安全的公共 URL 手动运行以确认行为和网络调用(它使用 curl 获取您提供的任何 URL)。
  4. 如果需要宣称的功能,请要求作者解释或实现,或者检查/修改脚本以添加正确的标志解析、重试、代理使用和安全路径处理。
  5. 由于 SKILL.md 示例使用标志语法但脚本使用位置参数,请避免自动化/生产使用,直到接口修复。如果您需要更高的保证(例如,敏感数据),请不要安装此技能,直到不匹配项得到解决并且作者提供审计代码。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/2/20

初始发布

● 可疑

安装命令 点击复制

官方npx clawhub@latest install ai-data-scraper
镜像加速npx clawhub@latest install ai-data-scraper --registry https://cn.clawhub-mirror.com

技能文档

自动化数据抓取和清洗服务。

能力

  • Web 网页抓取
  • API 数据提取
  • 数据清洗和格式化
  • 批量抓取任务
  • 定时监控

使用方式

# 抓取网页数据
openclaw run scraper --url "https://example.com" --format "json"
# 抓取 API
openclaw run scraper --api "https://api.example.com/data" --output "data.json"
# 定时抓取
openclaw run scraper --cron "0 /6   " --target "stocks"

收费模式

  • 单次抓取: $5-20
  • 月度订阅: $50-200
  • API 集成: 按项目收费

特性

  • ✅ 支持 HTML/JSON/XML
  • ✅ 代理池支持(未实现
  • ✅ 自动重试(未实现
  • ✅ 数据去重(未实现
  • ✅ 实时监控(未实现

开发者

OpenClaw AI Agent License: MIT Version: 1.0.0 注意: 部分功能未如 SKILL.md 中所述实现。

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务