Smart Crawler — 智能爬虫工具

Name: Smart Crawler — 智能爬虫工具
Author: kaiyuelv

kaiyuelv

Smart Crawler — 智能爬虫工具

v1.0.0

企业级数据采集解决方案，支持智能反爬虫处理、分布式爬取和数据清洗。基于 Playwright/Selenium 的动态渲染爬取，自动切换 User-Agent、代理池、请求频率控制，多模式数据提取，Redis 队列支持的分布式爬取，自动去重、格式标准化、敏感信息过滤。

0· 709·0 当前·0 累计

by @kaiyuelv·MIT-0

数据分析浏览器自动化开发工具自动化

下载技能包

License

MIT-0

最后更新

2026/3/18

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能内部一致：它是一个 Web 爬虫包，其文件、指令和运行时行为与该目的相符 — 未发现任何未解释的凭证请求、隐藏端点或安装时惊喜。

评估建议

该包是一个正常的 Web 爬虫，似乎与其描述一致，但采取常规预防措施：在受控环境中安装和运行（Playwright 将下载浏览器二进制文件）；审查您提供的任何代理或数据库连接字符串（它们可能包含凭证）；了解该工具对您提供的目标 URL 发出网络请求（因此，不要在未经授权的情况下将其指向内部或敏感端点）；并在输入机密信息之前审计您为存储后端（MongoDB/MySQL）创建的任何配置。如果您计划在自动化代理中运行它，请考虑沙盒化网络访问并限制结果可以上传的位置。...

详细分析 ▾

✓ 用途与能力

名称/描述（带有反检测的企业 Web 爬虫）与包含的代码、示例和要求一致。代码实现了基于请求的和 Playwright 基于的爬取、代理支持、提取、批处理和动态渲染，如声称的那样。

✓ 指令范围

SKILL.md 和 README 指示安装依赖项（pip 和 playwright）和运行测试；运行时指令和代码仅执行爬取、提取、下载和可选的代理使用。没有指令读取无关的主机文件、环境变量或将数据发送到意外的端点。

ℹ 安装机制

注册表条目中没有自动化安装规格（仅指令），但 SKILL.md 告诉用户运行 pip install -r requirements.txt 和 playwright install。依赖项是标准公共包；安装时 Playwright 将下载浏览器二进制文件 — 这是预期的，但值得注意。

✓ 凭证需求

该技能没有声明任何必需的环境变量或凭证。代码支持可选的代理池并在 README 中提到数据库，但没有请求或嵌入凭证。任何凭证使用将来自用户如何配置代理或 DB 连接器，而不是来自技能本身。

✓ 持久化与权限

该技能不是始终启用状态，并且不请求提升的平台权限。它不修改其他技能或系统范围的代理设置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/18

● 无害

安装命令点击复制

官方npx clawhub@latest install smart-crawler

镜像加速npx clawhub@latest install smart-crawler --registry https://cn.clawhub-mirror.com

技能文档

企业级数据采集解决方案，支持智能反爬虫处理、分布式爬取和数据清洗。

核心功能

功能模块	说明
智能爬虫引擎	基于 Playwright/Selenium 的动态渲染爬取
反爬虫处理	自动切换 User-Agent、代理池、请求频率控制
数据提取	XPath/CSS Selector/Regex 多模式数据提取
分布式支持	Redis 队列支持的分布式爬取
数据清洗	自动去重、格式标准化、敏感信息过滤

快速开始

from scripts.crawler_engine import CrawlerEngine
# 创建爬虫引擎
 crawler = CrawlerEngine(use_proxy=True, headless=True)
# 爬取网页
 result = crawler.crawl('https://example.com', extract_rules={'title': '//h1/text()', 'content': '//div[@class="content"]//p/text()'})
print(result)

安装

pip install -r requirements.txt
playwright install

项目结构

tree smart-crawler/
├── SKILL.md # 技能说明文档
├── README.md # 完整文档
├── requirements.txt # 依赖列表
├── scripts/ # 核心模块
│   ├── crawler_engine.py # 爬虫引擎
│   ├── proxy_manager.py # 代理管理器
│   ├── data_extractor.py # 数据提取器
│   └── anti_detection.py # 反检测模块
├── examples/ # 使用示例
│   └── basic_usage.py
└── tests/ # 单元测试
    └── test_crawler.py

运行测试

cd tests
python test_crawler.py

企业级数据采集解决方案，支持智能反爬虫处理、分布式爬取和数据清洗。

核心功能

功能模块	说明
智能爬虫引擎	基于 Playwright/Selenium 的动态渲染爬取
反爬虫处理	自动切换 User-Agent、代理池、请求频率控制
数据提取	XPath/CSS Selector/Regex 多模式数据提取
分布式支持	Redis 队列支持的分布式爬取
数据清洗	自动去重、格式标准化、敏感信息过滤

快速开始

from scripts.crawler_engine import CrawlerEngine
# 创建爬虫引擎
crawler = CrawlerEngine(use_proxy=True, headless=True)# 爬取网页
result = crawler.crawl('https://example.com', 
                       extract_rules={'title': '//h1/text()',
                                     'content': '//div[@class="content"]//p/text()'})
print(result)

安装

pip install -r requirements.txt
playwright install

项目结构

smart-crawler/
├── SKILL.md                 # Skill说明文档
├── README.md                # 完整文档
├── requirements.txt         # 依赖列表
├── scripts/                 # 核心模块
│   ├── crawler_engine.py    # 爬虫引擎
│   ├── proxy_manager.py     # 代理管理器
│   ├── data_extractor.py    # 数据提取器
│   └── anti_detection.py    # 反检测模块
├── examples/                # 使用示例
│   └── basic_usage.py
└── tests/                   # 单元测试
    └── test_crawler.py

运行测试

cd tests
python test_crawler.py

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

核心功能

快速开始

安装

项目结构

运行测试

核心功能

快速开始

安装

项目结构

运行测试

安装命令点击复制