📦 Toil Tracker — 劳动跟踪器
v1.0.0识别、衡量和减少运营负担——随着服务增长而线性增长的重复手动工作。根据类型对运营负担进行分类,估计工程师...
运行时依赖
安装命令
点击复制技能文档
Toil 跟踪器 找到消耗您工程时间的重复性工作。Toil 是指重复、可自动化、与服务规模相关且没有持久价值的工作。识别它,衡量它,优先考虑哪些工作需要首先自动化,并跟踪随时间的减少。 使用时:
- "我们有多少 Toil"
- "我们应该自动化什么"
- "Toil 预算"
- "手动运营工作"
- "重复任务"
- "SRE Toil 减少"
- 或在季度规划期间证明自动化项目的合理性。
命令
- survey — 目录 Toil 源
步骤 2:量化每个 Toil 源 # 分析票据系统中的重复模式 # Jira/Linear — 查找重复的票据类型 # 示例:按标签/类型统计上个季度的票据数量 # 分析值班警报中的噪音 curl -s "https://api.pagerduty.com/incidents?since=2026-01-01&until=2026-04-01&statuses[]=resolved" \ -H "Authorization: Token token=$PD_TOKEN" | python3 -c " import json, sys, collections incidents = json.load(sys.stdin)['incidents'] by_service = collections.Counter(i['service']['summary'] for i in incidents) print('Incidents by service (potential toil):') for service, count in by_service.most_common(10): print(f' {count:>4}x {service}') "
对于每个 Toil 源,估计:
- 频率:它发生的频率是多少?(每天、每周、每次部署)
- 持续时间:每次需要多长时间?(分钟、小时)
- 涉及人员:有多少工程师接触到它?
- 扩展:它是否随着服务数量、流量或团队规模而增长?
- 风险:如果有人做错了会发生什么?
步骤 3:计算 Toil 预算 def calculate_toil_budget(toil_items, team_size, hours_per_quarter=520): """ Google SRE 推荐:最多 50% 的 SRE 时间用于 Toil。 """ total_toil_hours = 0 for item in toil_items: quarterly_hours = item['frequency_per_quarter'] item['hours_per_occurrence'] item['people_involved'] total_toil_hours += quarterly_hours item['quarterly_hours'] = quarterly_hours team_capacity = team_size hours_per_quarter toil_percentage = (total_toil_hours / team_capacity) 100 return { 'total_toil_hours': total_toil_hours, 'team_capacity_hours': team_capacity, 'toil_percentage': toil_percentage, 'status': '🟢 健康' if toil_percentage < 30 else '🟡 警告' if toil_percentage < 50 else '🔴 超预算', 'items_ranked': sorted(toil_items, key=lambda x: -x['quarterly_hours']), }
步骤 4:生成报告 # Toil 报告 — Q2 2026
摘要
- 团队规模:6 名 SRE
- 总 Toil:420 小时/季度(13.5 小时/人/周)
- Toil 预算:34% 的容量 🟡 (目标:<30%)
顶级 Toil 源(按小时排名)
| 排名 | 类别 | 任务 | 频率 | 持续时间 | 小时/季度 | 是否可自动化? | |------|----------|------|------|----------|---------|-------------| | 1 | 票据 | 访问请求 | 20/周 | 15 分钟 | 65 小时 | ✅ 自助服务门户 | | 2 | 部署 | 手动生产部署 | 3/周 | 45 分钟 | 58.5 小时 | ✅ CI/CD 流水线 | | 3 | 监控 | 假警报分类 | 10/周 | 20 分钟 | 43 小时 | ✅ 调整阈值 | | 4 | 数据 | 客户数据修复 | 5/周 | 30 分钟 | 32.5 小时 | ✅ 管理工具 | | 5 | 维护 | 证书续期 | 12/季度 | 2 小时 | 24 小时 | ✅ 自动续期 |自动化 ROI
| 项目 | 预估工作量 | 每季度节省的 Toil | 回收期 | |---------|------------|-------------|---------| | 自助服务访问门户 | 80 小时 | 65 小时 | 1.2 个季度 | | CD 流水线 | 120 小时 | 58.5 小时 | 2.1 个季度 | | 警报调优冲刺 | 20 小时 | 43 小时 | 0.5 个季度 | | 管理数据工具 | 60 小时 | 32.5 小时 | 1.8 个季度 | | 自动证书续期 | 8 小时 | 24 小时 | 0.3 个季度 |推荐
首先进行警报调优(最快的 ROI)和自动证书续期(最低的工作量)。然后处理自助服务访问门户。将 CD 流水线推迟到 Q3(高工作量但高回报)。- prioritize — 排序自动化候选项
- 每季度节省的小时数(影响)
- 自动化工作量(成本)
- 手动错误的风险(安全)
- 增长率(会变得更糟吗?)
- track — 跟踪 Toil 减少情况
- 总 Toil 小时数是否上升或下降?
- 哪些自动化项目实现了预期的节省?
- 是否出现新的 Toil 源?
- Toil 百分比是否在 SRE 预算内(< 50%)?