Crawler — 网页爬虫与数据采集参考

Crawler

v3.0.0643 次下载0👤 bytesagain3📅 2026/04/14
⬇ 下载

简介

本技能提供网页爬虫和数据采集的参考文档,涵盖 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。仅输出参考文档,无需 API 密钥或凭证。

技能文档

# 网页爬虫与数据采集参考 网页爬虫和数据采集参考 — robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。无需 API 密钥或凭证 — 输出仅参考文档。 ## 命令 | 命令 | 描述 | |---------|-------------| | `intro` | 爬虫 vs 采集、robots.txt、站点地图 | | `standards` | HTTP 缓存、结构化数据、元标签 | | `troubleshooting` | 反爬虫检测、JS 渲染、编码 | | `performance` | 并发、去重、增量、分布式 | | `security` | 法律格局、道德指南、代理 | | `migration` | 从 BeautifulSoup 迁移到 Scrapy、从 requests 迁移到 Playwright | | `cheatsheet` | Scrapy 命令、CSS/XPath、curl、用户代理 | | `faq` | 合法性、JS 页面、阻塞、存储 | ## 输出格式 所有命令输出通过 heredoc 的纯文本参考文档。无外部 API 调用,无需凭证,无网络访问。 --- *Powered by BytesAgain | bytesagain.com | hello@bytesagain.com*

安装命令

clawhub install crawler