📦 Scrape — 网页数据采集

v2.0.0

合法的网页数据采集工具,支持 robots.txt 规则遵守、速率限制以及 GDPR/CCPA 合规的数据处理。可通过直接 HTTP 采集或托管采集服务进行数据获取。

0· 0·0 当前·0 累计
0

运行时依赖

无特殊依赖

安装命令

点击复制
官方npx clawhub@latest install alvis2-scrape
镜像加速npx clawhub@latest install alvis2-scrape --registry https://cn.longxiaskill.com

技能文档

概述

Scrape 技能提供合法的网页数据采集能力,专注于合规性和数据保护。

主要特性

  • robots.txt 遵守:自动解析并遵守目标网站的 robots.txt 规则
  • 速率限制:内置速率限制机制,防止对目标网站造成过大压力
  • GDPR/CCPA 合规:支持符合 GDPR 和 CCPA 法规的数据处理方式
  • 多种采集模式:支持直接 HTTP 采集和托管采集服务

使用方法

# 基本采集命令
scrape --url https://example.com

# 指定采集规则 scrape --url https://example.com --respect-robots-txt

# 使用托管采集 scrape --url https://example.com --managed

配置选项

参数说明
--url目标采集 URL
--respect-robots-txt遵守 robots.txt 规则
--rate-limit设置速率限制(请求/秒)
--managed使用托管采集服务

合规性说明

使用此技能进行网页采集时,请确保:

  • 遵守目标网站的 robots.txt 规则
  • 不采集敏感或个人数据(除非符合 GDPR/CCPA 要求)
  • 合理控制采集频率
  • 尊重版权和数据所有权
数据来源ClawHub ↗ · 中文优化:龙虾技能库