📦 站点地图生成器
v1.0.0通过爬取网站或扫描本地文件生成 XML 站点地图。自动通过链接提取发现页面。支持本地 HTML/MD 文件扫描,附带最近...
0· 10·0 当前·0 累计
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install cm-sitemap-generator
镜像加速npx clawhub@latest install cm-sitemap-generator --registry https://cn.longxiaskill.com镜像同步中
技能文档
Sitemap Generator 通过爬取线上网站或扫描本地 HTML 文件生成 XML sitemap。
爬取网站
python3 scripts/sitemap_gen.py https://example.com
扫描本地文件
python3 scripts/sitemap_gen.py --local ./public --base-url https://example.com
保存到文件
# 保存 sitemap.xml python3 scripts/sitemap_gen.py https://example.com --output sitemap.xml
# 同时保存 sitemap.xml + robots.txt python3 scripts/sitemap_gen.py https://example.com --output sitemap.xml --robots
输出格式
# XML(默认,符合 sitemap.xml 规范) python3 scripts/sitemap_gen.py https://example.com# Text(人类可读摘要 + XML) python3 scripts/sitemap_gen.py https://example.com --format text
# JSON(页面列表 + XML 字符串) python3 scripts/sitemap_gen.py https://example.com --format json
选项
| Flag | Default | Description |
|---|---|---|
| --max-pages | 500 | 最大爬取页数 |
| --timeout | 10 | 请求超时(秒) |
| --output / -o | stdout | 保存 sitemap.xml 到文件 |
| --robots | off | 同时生成 robots.txt |
| --local | off | 扫描本地目录而非爬取 |
| --base-url | — | 本地模式基准 URL(必填) |
| --verbose / -v | off | 显示爬取进度 |
- 爬取模式:BFS 链接发现,仅同域,自动去重
- 本地模式:扫描 HTML/HTM/MD/PHP 文件,按文件 mtime 自动获取 lastmod
- 智能过滤:跳过图片、CSS、JS、PDF、压缩包、媒体文件
- URL 规范化:移除片段,统一尾部斜杠
- robots.txt 生成:User-agent + Allow + Sitemap 引用
- 合法 XML:正确转义,符合 sitemaps.org 模式
要求
- Python 3.6+
- 无外部依赖(仅标准库)