首页龙虾技能列表 › Kekik Crawler — 基于 Scrapling 的确定性网络爬虫

Kekik Crawler — 基于 Scrapling 的确定性网络爬虫

v0.1.0-rc1

Kekik Crawler 是一个基于 Scrapling 的确定性网络爬虫,具有清晰的 SRP 架构、预设配置、检查点机制以及 JSONL 和报告输出。适用于本地网络爬取,支持插件扩展和隔离运行。

0· 635·0 当前·0 累计
by @keyiflerolsun·MIT-0
下载技能包
License
MIT-0
最后更新
2026/2/26
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
安全
high confidence
代码、指令和要求与本地网络爬虫一致:没有请求无关的凭证或隐藏端点,但在运行前应审查一些操作决策(如在预设中禁用 robots.txt、执行插件代码)。
评估建议
此包看似是一个直截了当的本地爬虫,但在运行前请审查以下几点:1) 预设(person-research、deep-research)设置 no_robots=True — 将忽略 robots.txt;仅对可接受的目标使用。2) 插件系统从 plugins 目录加载和执行 Python 文件 — 检查您使用的任何插件(并不要将 plugin_dir 指向不受信任的路径)。3) 运行时将在 outputs/ 下获取页面并写入输出/缓存/检查点文件;如果您想限制副作用,请在隔离目录或容器中运行。4) 指令要求从 PyPI (特别是 scrapling) 安装 pip 依赖项 — 验证包版本和来源。如果您想要降低风险,请运行测试 (pytest) 并在执行爬虫对外部或内部网络之前审查包含的插件和要求。...
详细分析 ▾
用途与能力
代码实现了基于 Scrapling 的爬虫,与名称/描述相符:爬取编排、获取器、插件、检查点、JSONL 输出和报告。没有请求无关的环境变量、二进制文件或外部服务。
指令范围
SKILL.md 指示安装 requirements.txt 并运行 main.py,这将获取任意网页、写入输出/缓存/检查点文件,并从插件目录加载插件。运行时可以获取 robots.txt 和搜索引擎页面(DuckDuckGo/Bing/Yahoo/Brave)。插件加载使用 importlib.exec_module(执行插件代码)—— 对于插件系统来说是预期的,但值得审查。
安装机制
没有提供注册表安装规格;README/SKILL.md 要求 pip 安装 requirements.txt(selectolax、tenacity、orjson、scrapling)。从 PyPI 安装是正常的,但带有通常的供应链风险(验证包/版本)。清单中没有从任意 URL 或存档下载。
凭证需求
技能声明没有所需的环境变量或凭证,这对于网络爬虫来说是合理的。它写入本地文件(outputs/、SQLite 缓存)并且不请求无关的秘密。
持久化与权限
always:false 且没有修改其他技能或系统范围的配置。技能在 outputs/ 下存储检查点、缓存和报告(正常)。注意:预设故意为研究预设设置 no_robots=True,这增加了爬取的侵入性,但这是一个操作选择而不是权限请求。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.1.0-rc12026/2/26
● 可疑

安装命令 点击复制

官方npx clawhub@latest install kekik-crawler
镜像加速npx clawhub@latest install kekik-crawler --registry https://cn.clawhub-mirror.com

技能文档

基于 Scrapling 的确定性网络爬虫

快速开始

pip install -r requirements.txt
python main.py --urls https://example.org

预设

python main.py --queries "Ömer Faruk Sancak" keyiflerolsun --preset person-research --out outputs/person.jsonl --report outputs/person-report.json
python main.py --queries "Ömer Faruk Sancak" keyiflerolsun --preset deep-research --out outputs/deep.jsonl --report outputs/deep-report.json

注意事项

  • 输出文件位于 outputs/
  • 主入口:main.py
  • 编排:core/crawl_runner.py
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务