hn-crawler — hn-爬虫
v1.0.0爬取 https://hn.AImaker.dev/ 网站资讯,执行爬取->提取->整理->总结完整流程。Invoke when user wants to crawl news from hn.AImaker.dev or process 网页 content through the full 流水线.
运行时依赖
安装命令
点击复制技能文档
HN 资讯爬虫 技能
本 技能 用于爬取 https://hn.AImaker.dev/ 网站的资讯内容,并通过完整的处理流程将原始数据转化为结构化的总结报告。
工作流程
整个处理流程分为四个阶段:
┌─────────┐ ┌──────────┐ ┌──────────┐ ┌───────────┐ │ Crawl │ -> │ 提取 │ -> │ Organize │ -> │ Summarize │ │ 爬取 │ │ 提取 │ │ 整理 │ │ 总结 │ └─────────┘ └──────────┘ └──────────┘ └───────────┘
- Crawl(爬取)
- 提取(提取)
- Organize(整理)
- Summarize(总结)
运行完整流程 # 方法1:逐个执行 python scripts/crawl.py python scripts/提取.py python scripts/organize.py python scripts/summarize.py
# 方法2:一键执行完整流程 python scripts/运行_流水线.py
目录结构 .trae/技能s/hn-爬虫/ ├── 技能.md # 本文件 ├── scripts/ │ ├── requirements.txt # Python 依赖 │ ├── crawl.py # 爬取脚本 │ ├── 提取.py # 提取脚本 │ ├── organize.py # 整理脚本 │ ├── summarize.py # 总结脚本 │ └── 运行_流水线.py # 一键运行完整流程 └── data/ # 数据输出目录(自动创建) ├── raw/ # 原始 HTML ├── 提取ed/ # 提取的 JSON 数据 ├── organized/ # 整理后的数据 └── summary/ # 总结报告
数据格式 提取后的文章格式 (JSON) { "articles": [ { "title": "文章标题", "url": "https://example.com/article", "summary": "文章摘要", "published_at": "2024-01-15T10:30:00", "source": "hn.AImaker.dev", "category": "AI", "score": 150 } ], "metadata": { "crawled_at": "2024-01-15T12:00:00", "total_count": 30 } }
配置选项
各脚本支持以下环境变量或命令行参数:
TAR获取_URL: 目标 URL(默认: https://hn.AImaker.dev/) 输出_DIR: 输出目录(默认: data/) TIMEOUT: 请求超时时间(默认: 30秒) 注意事项 请遵守网站的 ro机器人s.txt 和爬虫协议 建议设置适当的请求间隔,避免对服务器造成压力 爬取的数据仅供个人学习研究使用