Deep Scraper — 复杂网站深度爬取工具

Name: Deep Scraper — 复杂网站深度爬取工具
Rating: 1 (9 reviews)
Author: opsun

opsun

Deep Scraper — 复杂网站深度爬取工具

v1.0.1

利用容器化的 Crawlee（Playwright）对复杂网站（如 YouTube）进行深度爬取，提取验证后的、无广告的转录文本和内容，输出为 JSON。

9· 9,600·62 当前·69 累计

by @opsun·MIT-0

API工具浏览器自动化开发工具 AI模型访问云服务

下载技能包

License

MIT-0

最后更新

2026/2/28

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能代码旨在深度爬取（如 YouTube 转录文本拦截），无明显数据外泄端点，但运行指令声称基于 Docker 部署却未包含 Dockerfile，网络拦截能力可能暴露敏感数据 — 这些不一致性和风险需要谨慎对待。

评估建议

["未包含 Dockerfile：SKILL.md 需要从技能目录构建 Docker 镜像，但未提供 Dockerfile。请不要构建/运行未验证的镜像 — 请发布者提供 Dockerfile 或可复制的构建规范，并在构建前进行审查。","检查镜像和容器：如果构建容器，请审查其 Dockerfile 和结果镜像层，并在隔离环境（非生产主机、沙盒或 VM）中运行，以限制影响范围。","网络拦截风险：代码监听所有网络请求并将获取拦截的 URL。这可能无意中捕获包含授权令牌或其他敏感数据的请求 URL 或有效负载。仅对公共内容运行，并避免登录会话；在测试期间考虑网络限制。","法律和政策风险：自动化爬取可能会违反网站的服务条款或当地法律。确认您有权爬取目标网站和转录文本。","依赖项和资源需求：Playwright 需要浏览器二进制文件；容器将很重。确保您的环境可以安全运行无头浏览器（无特权挂载，访问受限）。","建议的操作：请求缺失的 Dockerfile，审查它和 package.json，在网络隔离的沙盒中运行技能，并将输入限制为仅公共 URL。如果您需要更低风险的替代方案，请更喜欢使...

详细分析 ▾

✓ 用途与能力

名称和 SKILL.md 描述了一个用于动态网站（YouTube/X）的深度网页爬取工具，包含的 JS 文件实现了 Playwright/Crawlee 逻辑以捕获 YouTube 定时文本和页面文本。所需资源（Docker、Playwright）与该目的相符；没有请求无关的凭证或二进制文件。

⚠ 指令范围

SKILL.md 指示构建一个 Docker 镜像（标签 clawd-crawlee），并坚持在技能目录中保持一个 Dockerfile，但提供的文件清单中没有包含任何 Dockerfile。因此，构建/运行指令与交付的文件不匹配。运行时指令还指向网络拦截（page.on('request')），这可以捕获超过转录文本的内容，如果页面发出敏感请求 — 指南没有限制或清理该功能。

ℹ 安装机制

没有安装规范（仅指令），这风险较低，但 package.json 声明了重依赖项（crawlee、playwright），而 SKILL.md 期望一个容器化镜像。由于没有 Dockerfile，无法明确如何构建容器 — 这个缺口需要在运行任何安装/构建步骤之前解决。

ℹ 凭证需求

该技能不请求环境变量或凭证（合理），然而其网络拦截逻辑（监听所有请求，然后 fetch() 拦截的 URL）可能会捕获来自目标页面的请求 URL 或包含令牌或其他敏感数据的有效负载。没有明确的数据外泄端点 — 输出打印到 stdout — 但在对已验证或私有页面运行时，存在暴露机密的风险。

✓ 持久化与权限

该技能不请求永久存在（always: false），不修改其他技能或系统设置，并且是用户可调用。它需要 Docker 来运行容器，这是此类工具的正常权限。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.12026/2/4

已在包中包含 Dockerfile

● 无害

安装命令点击复制

官方npx clawhub@latest install deep-scraper

镜像加速npx clawhub@latest install deep-scraper --registry https://cn.clawhub-mirror.com

技能文档

概述

一个用于深度网页爬取的高性能工程工具。它使用容器化的 Docker + Crawlee（Playwright）环境来突破像 YouTube 和 X/Twitter 这样的复杂网站的保护，提供「拦截级」的原始数据。

要求

Docker：必须在主机上安装并运行。
镜像：使用标签 clawd-crawlee 构建环境。

* 构建命令：docker build -t clawd-crawlee skills/deep-scraper/

集成指南

简单地将 skills/deep-scraper 目录复制到您的 skills/ 文件夹中。确保 Dockerfile 保留在技能目录中以实现自包含部署。

标准接口（CLI）

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]

输出规范（JSON）

爬取结果作为 JSON 字符串打印到 stdout： - status：SUCCESS | PARTIAL | ERROR - type：TRANSCRIPT | DESCRIPTION | GENERIC - videoId：（对于 YouTube）验证的视频 ID。 - data：核心文本内容或转录文本。

核心规则

ID 验证：所有 YouTube 任务必须验证视频 ID 以防止缓存污染。
隐私：严格禁止爬取密码保护或非公共个人信息。
Alpha 集中：自动剥离广告和噪音，提供优化的纯数据用于 LLM 处理。

Overview

A high-performance engineering tool for deep web scraping. It uses a containerized Docker + Crawlee (Playwright) environment to penetrate protections on complex websites like YouTube and X/Twitter, providing "interception-level" raw data.

Requirements

Docker: Must be installed and running on the host machine.
Image: Build the environment with the tag clawd-crawlee.

* Build command: docker build -t clawd-crawlee skills/deep-scraper/

Integration Guide

Simply copy the skills/deep-scraper directory into your skills/ folder. Ensure the Dockerfile remains within the skill directory for self-contained deployment.

Standard Interface (CLI)

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]

Output Specification (JSON)

The scraping results are printed to stdout as a JSON string:

status: SUCCESS | PARTIAL | ERROR
type: TRANSCRIPT | DESCRIPTION | GENERIC
videoId: (For YouTube) The validated Video ID.
data: The core text content or transcript.

Core Rules

ID Validation: All YouTube tasks MUST verify the Video ID to prevent cache contamination.
Privacy: Strictly forbidden from scraping password-protected or non-public personal information.
Alpha-Focused: Automatically strips ads and noise, delivering pure data optimized for LLM processing.

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

概述

要求

集成指南

标准接口（CLI）

输出规范（JSON）

核心规则

Overview

Requirements

Integration Guide

Standard Interface (CLI)

Output Specification (JSON)

Core Rules

安装命令点击复制