Crawler — 网页爬虫与数据采集参考
Crawler
简介
本技能提供网页爬虫和数据采集的参考文档,涵盖 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。仅输出参考文档,无需 API 密钥或凭证。
技能文档
# 网页爬虫与数据采集参考
网页爬虫和数据采集参考 — robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。无需 API 密钥或凭证 — 输出仅参考文档。
## 命令
| 命令 | 描述 |
|---------|-------------|
| `intro` | 爬虫 vs 采集、robots.txt、站点地图 |
| `standards` | HTTP 缓存、结构化数据、元标签 |
| `troubleshooting` | 反爬虫检测、JS 渲染、编码 |
| `performance` | 并发、去重、增量、分布式 |
| `security` | 法律格局、道德指南、代理 |
| `migration` | 从 BeautifulSoup 迁移到 Scrapy、从 requests 迁移到 Playwright |
| `cheatsheet` | Scrapy 命令、CSS/XPath、curl、用户代理 |
| `faq` | 合法性、JS 页面、阻塞、存储 |
## 输出格式
所有命令输出通过 heredoc 的纯文本参考文档。无外部 API 调用,无需凭证,无网络访问。
---
*Powered by BytesAgain | bytesagain.com | hello@bytesagain.com*
安装命令
clawhub install crawler