CNBLOGS 精华内容抓取 -> CNBLOGS 精华内容爬取

v1.0.0

抓取博客园精华区文章标题和正文，支持指定页数批量下载并保存为纯文本文件。翻译：抓取博客园精华区文章标题和正文，支持指定页数批量下载并保存为纯文本文件。（无需翻译，原文已是中文）

0· 204·0 当前·0 累计

by @againcrazycode (XWork)·MIT-0

生产力工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install cnbblogs-pick

镜像加速npx clawhub@latest install cnbblogs-pick --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

CNBLOGS 精华内容抓取技能功能描述抓取博客园（cnblogs.com）精华区内容，支持分页、批量下载标题和正文。

使用方法基本用法 # 抓取第 1 页，保存所有文章到指定目录 openclaw cnblogs-pick --page 1 --output-dir /path/to/output # 抓取前 3 页，保存所有文章 openclaw cnblogs-pick --pages 3 --output-dir /path/to/output # 抓取指定 URL 的精华列表 openclaw cnblogs-pick --url https://www.cnblogs.com/pick/ --pages 2

参数说明参数类型必填默认值说明 --url string 否 https://www.cnblogs.com/pick/ 精华列表页 URL --page int 否 1 单页抓取页数（仅当 --pages 未指定时有效） --pages int 否 1 总页数（优先于 --page） --output-dir string 否 ~/.openclaw/workspace/user_cnglobs/ 输出目录 --agent string 否 Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:149.0) Gecko/20100101 Firefox/149.0 User-Agent

输出格式每篇文章保存为独立文件，命名格式： {标题}.txt 标题中的特殊字符会被替换为下划线。

工作流程获取列表页：使用 curl 下载指定页数的精华列表提取链接：解析 HTML，提取所有 post-item-title 类链接下载详情：逐个打开详情页面提取正文：获取 cnblogs_post_body 内容并去除 HTML 标签保存文件：按标题命名保存到输出目录

示例 # 抓取前 5 页精华内容 openclaw cnblogs-pick --pages 5 --output-dir /tmp/cnb-pick # 查看结果 ls -lh /tmp/cnb-pick/

依赖工具 curl - HTTP 请求 grep -oP - Perl 正则表达式 sed - 文本处理

注意事项部分文章可能因反爬机制失败大页面可能超出 token 限制建议先测试单页再批量处理

更新日志 v1.0.0: 初始版本，支持单页抓取 v1.1.0: 支持多页批量抓取 v1.2.0: 优化错误处理和日志输出

License

运行时依赖

安装命令

技能文档

相关技能推荐