Kekik Crawler — 基于 Scrapling 的确定性网络爬虫

Name: Kekik Crawler — 基于 Scrapling 的确定性网络爬虫
Author: keyiflerolsun

keyiflerolsun

Kekik Crawler — 基于 Scrapling 的确定性网络爬虫

v0.1.0-rc1

Kekik Crawler 是一个基于 Scrapling 的确定性网络爬虫，具有清晰的 SRP 架构、预设配置、检查点机制以及 JSONL 和报告输出。适用于本地网络爬取，支持插件扩展和隔离运行。

0· 635·0 当前·0 累计

by @keyiflerolsun·MIT-0

网络工具浏览器自动化

下载技能包

License

MIT-0

最后更新

2026/2/26

安全扫描

VirusTotal

可疑

查看报告

OpenClaw

安全

high confidence

代码、指令和要求与本地网络爬虫一致：没有请求无关的凭证或隐藏端点，但在运行前应审查一些操作决策（如在预设中禁用 robots.txt、执行插件代码）。

评估建议

此包看似是一个直截了当的本地爬虫，但在运行前请审查以下几点：1) 预设（person-research、deep-research）设置 no_robots=True — 将忽略 robots.txt；仅对可接受的目标使用。2) 插件系统从 plugins 目录加载和执行 Python 文件 — 检查您使用的任何插件（并不要将 plugin_dir 指向不受信任的路径）。3) 运行时将在 outputs/ 下获取页面并写入输出/缓存/检查点文件；如果您想限制副作用，请在隔离目录或容器中运行。4) 指令要求从 PyPI (特别是 scrapling) 安装 pip 依赖项 — 验证包版本和来源。如果您想要降低风险，请运行测试 (pytest) 并在执行爬虫对外部或内部网络之前审查包含的插件和要求。...

详细分析 ▾

✓ 用途与能力

代码实现了基于 Scrapling 的爬虫，与名称/描述相符：爬取编排、获取器、插件、检查点、JSONL 输出和报告。没有请求无关的环境变量、二进制文件或外部服务。

ℹ 指令范围

SKILL.md 指示安装 requirements.txt 并运行 main.py，这将获取任意网页、写入输出/缓存/检查点文件，并从插件目录加载插件。运行时可以获取 robots.txt 和搜索引擎页面（DuckDuckGo/Bing/Yahoo/Brave）。插件加载使用 importlib.exec_module（执行插件代码）—— 对于插件系统来说是预期的，但值得审查。

ℹ 安装机制

没有提供注册表安装规格；README/SKILL.md 要求 pip 安装 requirements.txt（selectolax、tenacity、orjson、scrapling）。从 PyPI 安装是正常的，但带有通常的供应链风险（验证包/版本）。清单中没有从任意 URL 或存档下载。

✓ 凭证需求

技能声明没有所需的环境变量或凭证，这对于网络爬虫来说是合理的。它写入本地文件（outputs/、SQLite 缓存）并且不请求无关的秘密。

✓ 持久化与权限

always:false 且没有修改其他技能或系统范围的配置。技能在 outputs/ 下存储检查点、缓存和报告（正常）。注意：预设故意为研究预设设置 no_robots=True，这增加了爬取的侵入性，但这是一个操作选择而不是权限请求。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.0-rc12026/2/26

● 可疑

安装命令点击复制

官方npx clawhub@latest install kekik-crawler

镜像加速npx clawhub@latest install kekik-crawler --registry https://cn.clawhub-mirror.com

技能文档

基于 Scrapling 的确定性网络爬虫

快速开始

pip install -r requirements.txt
python main.py --urls https://example.org

预设

python main.py --queries "Ömer Faruk Sancak" keyiflerolsun --preset person-research --out outputs/person.jsonl --report outputs/person-report.json
python main.py --queries "Ömer Faruk Sancak" keyiflerolsun --preset deep-research --out outputs/deep.jsonl --report outputs/deep-report.json

注意事项

输出文件位于 outputs/ 下
主入口：main.py
编排：core/crawl_runner.py

Scrapling tabanlı, browser'sız crawler.

Quick Start

pip install -r requirements.txt
python main.py --urls https://example.org

Presets

python main.py --queries "Ömer Faruk Sancak" keyiflerolsun --preset person-research --out outputs/person.jsonl --report outputs/person-report.json
python main.py --queries "Ömer Faruk Sancak" keyiflerolsun --preset deep-research --out outputs/deep.jsonl --report outputs/deep-report.json

Notes

Output files are under outputs/
Main entrypoint: main.py
Orchestration: core/crawl_runner.py

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

基于 Scrapling 的确定性网络爬虫

快速开始

预设

注意事项

Quick Start

Presets

Notes

安装命令点击复制