📦 Zhihu Keyword Content Search — 知乎关键词内容爬取
v1.0.0爬取知乎问题和回答,支持按关键词搜索、按回答数排序,输出 JSON 和纯文本。用于需要获取知乎特定主题数据的场景。
0· 128·0 当前·0 累计
安全扫描
OpenClaw
安全
high confidence该技能实现了知乎关键词爬虫的功能,其代码、指令和要求一致。主要风险在于需要用户提供完整的知乎登录 Cookie(敏感信息),这对功能实现是必要的。
评估建议
该技能与其描述一致,但要求提供完整的知乎登录 Cookie(会话令牌)。如果泄露,可能授予对账户的访问权限。仅在信任的代码中使用。推荐:(1)在运行前本地审查 zhihu_crawl.py;(2)如果可能,使用隔离或一次性账户运行脚本;(3)不要将 Cookie 粘贴到第三方 Web UI 或共享;(4)了解知乎的服务条款和速率限制;(5)确保在受控的 Python 环境中安装了 'requests'。如果不舒服提供完整登录 Cookie,请不要安装或运行此技能。...详细分析 ▾
✓ 用途与能力
名称/描述与包含的 Python 脚本 (zhihu_crawl.py) 和 README 匹配:代码搜索知乎,按回答数排名,获取回答,并写入 JSON/纯文本输出。没有请求无关的二进制文件、服务或凭据。
ℹ 指令范围
SKILL.md 指导运行提供的脚本带有 --cookie 参数,并解释如何复制浏览器 Cookie。指令不尝试读取无关系统文件或向第三方端点发送数据。然而,要求用户粘贴完整的浏览器 Cookie 是敏感的 —— 这在访问登录的知乎 API 范围内是必要的,但应谨慎处理。
✓ 安装机制
没有安装规格;依赖是 requests(不绑定)。该技能仅为指令+源文件,因此没有从外部 URL 下载或静默安装任何内容。安装机制的风险很低。
ℹ 凭证需求
没有声明环境变量或外部服务凭据,这与注册元数据匹配。脚本需要通过 CLI 参数传递知乎登录 Cookie;这对于访问某些知乎 API 是必要的,但它是敏感的(会话令牌)。没有请求无关的凭据(AWS、GitHub 等)。
✓ 持久化与权限
技能没有请求 always:true,也不会修改其他技能或系统范围的设置。它作为一个正常的按需脚本运行,并仅写入到配置的输出目录。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/4/1
知乎爬虫技能的初始发布。- 启用按关键词搜索知乎问题和爬取相关回答。- 支持按回答数排序问题。- 以 JSON 和纯文本格式保存结果以便分析。- 提供简单的命令行使用,用户提供 Cookie。- 处理常见错误并提供故障排除指南。
● 无害
安装命令
点击复制官方npx clawhub@latest install zhihu-keyword-content-search
镜像加速npx clawhub@latest install zhihu-keyword-content-search --registry https://cn.longxiaskill.com镜像同步中
技能文档
环境要求
- Python 3.7+(
python或python3命令) - 依赖:
pip install requests
工作流程
- 识别关键词:从用户请求中提取要搜索的关键词
- 获取 Cookie:若用户未提供,告知获取方式(见下方)
- 执行脚本:运行
zhihu_crawl.py,监控进度 - 汇报结果:问题数、回答数、输出目录
获取 Cookie
浏览器打开 zhihu.com 登录 → F12 → Network → 任意请求 → Request Headers → 复制 cookie: 后的完整值执行命令
python zhihu_crawl.py
--cookie "用户的Cookie"
--keywords "关键词1" "关键词2"
--top 100
--output ./zhihu_output
Windows PowerShell:
python zhihu_crawl.py
--cookie "用户的Cookie"
--keywords "关键词1" "关键词2"
--top 100
--output ./zhihu_output
Windows 上若提示 SSL 错误,在命令前加:$env:PATH = "C:\python\anaconda\Library\bin;" + $env:PATH
参数
| 参数 | 必填 | 默认值 | 说明 |
|---|---|---|---|
--cookie | 是 | — | 知乎登录 Cookie |
--keywords | 否 | MyGO Ave Mujica 丰川祥子 | 搜索词,多个用空格分隔,含空格的词用引号 |
--top | 否 | 100 | 取回答数最多的前 N 个问题 |
--output | 否 | zhihu_output | 输出目录路径 |
--search-max | 否 | 200 | 每个关键词最多搜索多少候选 |
输出文件
``output/
├── question_{id}.json # 每道题的完整数据(含全部回答)
├── _question_list.json # 问题列表(按回答数降序)
└── _merged_all.txt # 所有内容合并纯文本(可直接喂给 AI 分析)
常见错误
错误 原因 解决 SSL module not available Anaconda PATH 未配置 设置 $env:PATH = "C:\python\anaconda\Library\bin;" + $env:PATH ModuleNotFoundError: requests 未安装依赖 pip install requests 或 pip install --user requests HTTP 403 Cookie 失效 重新从浏览器复制 Cookie 找到 0 个问题 Cookie 失效或关键词无结果 检查 Cookie 是否完整有效
使用示例
抓取单主题:
bash
python zhihu_crawl.py --cookie "abc..." --keywords "高松灯" --top 50 --output ./output_灯
抓取多主题,取 TOP 200:
bash
python zhihu_crawl.py --cookie "abc..." --keywords "MyGO" "Ave Mujica" "丰川祥子" --top 200
``