首页龙虾技能列表 › Smart Crawler — 智能爬虫工具

Smart Crawler — 智能爬虫工具

v1.0.0

企业级数据采集解决方案,支持智能反爬虫处理、分布式爬取和数据清洗。基于 Playwright/Selenium 的动态渲染爬取,自动切换 User-Agent、代理池、请求频率控制,多模式数据提取,Redis 队列支持的分布式爬取,自动去重、格式标准化、敏感信息过滤。

0· 709·0 当前·0 累计
by @kaiyuelv·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/18
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能内部一致:它是一个 Web 爬虫包,其文件、指令和运行时行为与该目的相符 — 未发现任何未解释的凭证请求、隐藏端点或安装时惊喜。
评估建议
该包是一个正常的 Web 爬虫,似乎与其描述一致,但采取常规预防措施:在受控环境中安装和运行(Playwright 将下载浏览器二进制文件);审查您提供的任何代理或数据库连接字符串(它们可能包含凭证);了解该工具对您提供的目标 URL 发出网络请求(因此,不要在未经授权的情况下将其指向内部或敏感端点);并在输入机密信息之前审计您为存储后端(MongoDB/MySQL)创建的任何配置。如果您计划在自动化代理中运行它,请考虑沙盒化网络访问并限制结果可以上传的位置。...
详细分析 ▾
用途与能力
名称/描述(带有反检测的企业 Web 爬虫)与包含的代码、示例和要求一致。代码实现了基于请求的和 Playwright 基于的爬取、代理支持、提取、批处理和动态渲染,如声称的那样。
指令范围
SKILL.md 和 README 指示安装依赖项(pip 和 playwright)和运行测试;运行时指令和代码仅执行爬取、提取、下载和可选的代理使用。没有指令读取无关的主机文件、环境变量或将数据发送到意外的端点。
安装机制
注册表条目中没有自动化安装规格(仅指令),但 SKILL.md 告诉用户运行 pip install -r requirements.txt 和 playwright install。依赖项是标准公共包;安装时 Playwright 将下载浏览器二进制文件 — 这是预期的,但值得注意。
凭证需求
该技能没有声明任何必需的环境变量或凭证。代码支持可选的代理池并在 README 中提到数据库,但没有请求或嵌入凭证。任何凭证使用将来自用户如何配置代理或 DB 连接器,而不是来自技能本身。
持久化与权限
该技能不是始终启用状态,并且不请求提升的平台权限。它不修改其他技能或系统范围的代理设置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/18
● 无害

安装命令 点击复制

官方npx clawhub@latest install smart-crawler
镜像加速npx clawhub@latest install smart-crawler --registry https://cn.clawhub-mirror.com

技能文档

企业级数据采集解决方案,支持智能反爬虫处理、分布式爬取和数据清洗。

核心功能

功能模块说明
智能爬虫引擎基于 Playwright/Selenium 的动态渲染爬取
反爬虫处理自动切换 User-Agent、代理池、请求频率控制
数据提取XPath/CSS Selector/Regex 多模式数据提取
分布式支持Redis 队列支持的分布式爬取
数据清洗自动去重、格式标准化、敏感信息过滤

快速开始

from scripts.crawler_engine import CrawlerEngine
# 创建爬虫引擎
 crawler = CrawlerEngine(use_proxy=True, headless=True)
# 爬取网页
 result = crawler.crawl('https://example.com', extract_rules={'title': '//h1/text()', 'content': '//div[@class="content"]//p/text()'})
print(result)

安装

pip install -r requirements.txt
playwright install

项目结构

tree smart-crawler/
├── SKILL.md # 技能说明文档
├── README.md # 完整文档
├── requirements.txt # 依赖列表
├── scripts/ # 核心模块
│   ├── crawler_engine.py # 爬虫引擎
│   ├── proxy_manager.py # 代理管理器
│   ├── data_extractor.py # 数据提取器
│   └── anti_detection.py # 反检测模块
├── examples/ # 使用示例
│   └── basic_usage.py
└── tests/ # 单元测试
    └── test_crawler.py

运行测试

cd tests
python test_crawler.py

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务