📦 Scrape — 网页数据采集
v2.0.0合法的网页数据采集工具,支持 robots.txt 规则遵守、速率限制以及 GDPR/CCPA 合规的数据处理。可通过直接 HTTP 采集或托管采集服务进行数据获取。
0· 0·0 当前·0 累计
by @alvisdunlop
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install alvis2-scrape
镜像加速npx clawhub@latest install alvis2-scrape --registry https://cn.longxiaskill.com
技能文档
概述
Scrape 技能提供合法的网页数据采集能力,专注于合规性和数据保护。
主要特性
- robots.txt 遵守:自动解析并遵守目标网站的 robots.txt 规则
- 速率限制:内置速率限制机制,防止对目标网站造成过大压力
- GDPR/CCPA 合规:支持符合 GDPR 和 CCPA 法规的数据处理方式
- 多种采集模式:支持直接 HTTP 采集和托管采集服务
使用方法
# 基本采集命令 scrape --url https://example.com# 指定采集规则 scrape --url https://example.com --respect-robots-txt
# 使用托管采集 scrape --url https://example.com --managed
配置选项
| 参数 | 说明 |
|---|---|
--url | 目标采集 URL |
--respect-robots-txt | 遵守 robots.txt 规则 |
--rate-limit | 设置速率限制(请求/秒) |
--managed | 使用托管采集服务 |
合规性说明
使用此技能进行网页采集时,请确保:
- 遵守目标网站的 robots.txt 规则
- 不采集敏感或个人数据(除非符合 GDPR/CCPA 要求)
- 合理控制采集频率
- 尊重版权和数据所有权