安全扫描
OpenClaw
可疑
medium confidence该技能代码旨在深度爬取(如 YouTube 转录文本拦截),无明显数据外泄端点,但运行指令声称基于 Docker 部署却未包含 Dockerfile,网络拦截能力可能暴露敏感数据 — 这些不一致性和风险需要谨慎对待。
评估建议
["未包含 Dockerfile:SKILL.md 需要从技能目录构建 Docker 镜像,但未提供 Dockerfile。请不要构建/运行未验证的镜像 — 请发布者提供 Dockerfile 或可复制的构建规范,并在构建前进行审查。","检查镜像和容器:如果构建容器,请审查其 Dockerfile 和结果镜像层,并在隔离环境(非生产主机、沙盒或 VM)中运行,以限制影响范围。","网络拦截风险:代码监听所有网络请求并将获取拦截的 URL。这可能无意中捕获包含授权令牌或其他敏感数据的请求 URL 或有效负载。仅对公共内容运行,并避免登录会话;在测试期间考虑网络限制。","法律和政策风险:自动化爬取可能会违反网站的服务条款或当地法律。确认您有权爬取目标网站和转录文本。","依赖项和资源需求:Playwright 需要浏览器二进制文件;容器将很重。确保您的环境可以安全运行无头浏览器(无特权挂载,访问受限)。","建议的操作:请求缺失的 Dockerfile,审查它和 package.json,在网络隔离的沙盒中运行技能,并将输入限制为仅公共 URL。如果您需要更低风险的替代方案,请更喜欢使...详细分析 ▾
✓ 用途与能力
名称和 SKILL.md 描述了一个用于动态网站(YouTube/X)的深度网页爬取工具,包含的 JS 文件实现了 Playwright/Crawlee 逻辑以捕获 YouTube 定时文本和页面文本。所需资源(Docker、Playwright)与该目的相符;没有请求无关的凭证或二进制文件。
⚠ 指令范围
SKILL.md 指示构建一个 Docker 镜像(标签 clawd-crawlee),并坚持在技能目录中保持一个 Dockerfile,但提供的文件清单中没有包含任何 Dockerfile。因此,构建/运行指令与交付的文件不匹配。运行时指令还指向网络拦截(page.on('request')),这可以捕获超过转录文本的内容,如果页面发出敏感请求 — 指南没有限制或清理该功能。
ℹ 安装机制
没有安装规范(仅指令),这风险较低,但 package.json 声明了重依赖项(crawlee、playwright),而 SKILL.md 期望一个容器化镜像。由于没有 Dockerfile,无法明确如何构建容器 — 这个缺口需要在运行任何安装/构建步骤之前解决。
ℹ 凭证需求
该技能不请求环境变量或凭证(合理),然而其网络拦截逻辑(监听所有请求,然后 fetch() 拦截的 URL)可能会捕获来自目标页面的请求 URL 或包含令牌或其他敏感数据的有效负载。没有明确的数据外泄端点 — 输出打印到 stdout — 但在对已验证或私有页面运行时,存在暴露机密的风险。
✓ 持久化与权限
该技能不请求永久存在(always: false),不修改其他技能或系统设置,并且是用户可调用。它需要 Docker 来运行容器,这是此类工具的正常权限。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.12026/2/4
已在包中包含 Dockerfile
● 无害
安装命令 点击复制
官方npx clawhub@latest install deep-scraper
镜像加速npx clawhub@latest install deep-scraper --registry https://cn.clawhub-mirror.com
技能文档
概述
一个用于深度网页爬取的高性能工程工具。它使用容器化的 Docker + Crawlee(Playwright)环境来突破像 YouTube 和 X/Twitter 这样的复杂网站的保护,提供「拦截级」的原始数据。要求
- Docker:必须在主机上安装并运行。
- 镜像:使用标签
clawd-crawlee构建环境。
docker build -t clawd-crawlee skills/deep-scraper/
集成指南
简单地将skills/deep-scraper 目录复制到您的 skills/ 文件夹中。确保 Dockerfile 保留在技能目录中以实现自包含部署。
标准接口(CLI)
docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]
输出规范(JSON)
爬取结果作为 JSON 字符串打印到 stdout: -status:SUCCESS | PARTIAL | ERROR
- type:TRANSCRIPT | DESCRIPTION | GENERIC
- videoId:(对于 YouTube)验证的视频 ID。
- data:核心文本内容或转录文本。
核心规则
- ID 验证:所有 YouTube 任务必须验证视频 ID 以防止缓存污染。
- 隐私:严格禁止爬取密码保护或非公共个人信息。
- Alpha 集中:自动剥离广告和噪音,提供优化的纯数据用于 LLM 处理。
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制