hn-crawler — hn-爬虫

v1.0.0

爬取 https://hn.AImaker.dev/ 网站资讯，执行爬取->提取->整理->总结完整流程。Invoke when user wants to crawl news from hn.AImaker.dev or process 网页 content through the full 流水线.

0· 199·0 当前·0 累计

by @drowning-in-codes (proanimer)·MIT-0

网络工具浏览器自动化 AI模型访问 CI/CD DevOps

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install hn-crawler-cn

镜像加速npx clawhub@latest install hn-crawler-cn --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

HN 资讯爬虫技能

本技能用于爬取 https://hn.AImaker.dev/ 网站的资讯内容，并通过完整的处理流程将原始数据转化为结构化的总结报告。

工作流程

整个处理流程分为四个阶段：

┌─────────┐ ┌──────────┐ ┌──────────┐ ┌───────────┐ │ Crawl │ -> │ 提取 │ -> │ Organize │ -> │ Summarize │ │ 爬取 │ │ 提取 │ │ 整理 │ │ 总结 │ └─────────┘ └──────────┘ └──────────┘ └───────────┘

Crawl（爬取）

脚本: scripts/crawl.py 功能: 使用 HTTP 请求获取网页原始 HTML 内容输出: data/raw/hn_AImaker_.html

提取（提取）

脚本: scripts/提取.py 功能: 解析 HTML，提取文章标题、链接、摘要、发布时间等信息输出: data/提取ed/articles_.json

Organize（整理）

脚本: scripts/organize.py 功能: 对提取的数据进行清洗、去重、分类和格式化输出: data/organized/articles_organized_.json

Summarize（总结）

脚本: scripts/summarize.py 功能: 生成摘要报告，包括热点话题统计、趋势分析等输出: data/summary/summary_.md 快速开始安装依赖 cd .trae/技能s/hn-爬虫/scripts pip 安装 -r requirements.txt

运行完整流程 # 方法1：逐个执行 python scripts/crawl.py python scripts/提取.py python scripts/organize.py python scripts/summarize.py

# 方法2：一键执行完整流程 python scripts/运行_流水线.py

目录结构 .trae/技能s/hn-爬虫/ ├── 技能.md # 本文件 ├── scripts/ │ ├── requirements.txt # Python 依赖 │ ├── crawl.py # 爬取脚本 │ ├── 提取.py # 提取脚本 │ ├── organize.py # 整理脚本 │ ├── summarize.py # 总结脚本 │ └── 运行_流水线.py # 一键运行完整流程 └── data/ # 数据输出目录（自动创建） ├── raw/ # 原始 HTML ├── 提取ed/ # 提取的 JSON 数据 ├── organized/ # 整理后的数据 └── summary/ # 总结报告

数据格式提取后的文章格式 (JSON) { "articles": [ { "title": "文章标题", "url": "https://example.com/article", "summary": "文章摘要", "published_at": "2024-01-15T10:30:00", "source": "hn.AImaker.dev", "category": "AI", "score": 150 } ], "metadata": { "crawled_at": "2024-01-15T12:00:00", "total_count": 30 } }

配置选项

各脚本支持以下环境变量或命令行参数：

TAR获取_URL: 目标 URL（默认: https://hn.AImaker.dev/）输出_DIR: 输出目录（默认: data/） TIMEOUT: 请求超时时间（默认: 30秒）注意事项请遵守网站的 ro机器人s.txt 和爬虫协议建议设置适当的请求间隔，避免对服务器造成压力爬取的数据仅供个人学习研究使用

License

运行时依赖

安装命令

技能文档

相关技能推荐