📦 Experiment Designer — 实验设计师
v2.1.1一站式实验规划助手:生成可检验假设、估算样本量、ICE 优先级排序、解读 A/B 结果,附本地 Python 样本量计算器,助你科学决策。
详细分析 ▾
运行时依赖
版本
v2.1.1:优化,参考文档拆分
安装命令
点击复制技能文档
# 实验设计师 用清晰的假设和可辩护的决策来设计、排序和评估产品实验。 ## 何时使用 本技能适用于: - A/B 与多变量实验规划 - 假设撰写与成功标准定义 - 样本量与最小可检测效应(MDE)估算 - 基于 ICE 评分的实验优先级排序 - 为产品决策解读统计结果 ## 核心工作流 1. 用 If/Then/Because 格式撰写假设 - 如果我们改变 [干预] - 那么 [指标] 将按 [预期方向/幅度] 改变 - 因为 [行为机制] 2. 在测试前定义指标 - 主要指标:唯一决策指标 - 护栏指标:质量/风险保护 - 次要指标:仅用于诊断 3. 估算样本量 - 基线转化率或基线均值 - 最小可检测效应(MDE) - 显著性水平(alpha)与功效 使用: ``bash python3 scripts/sample_size_calculator.py --baseline-rate 0.12 --mde 0.02 --mde-type absolute ` 4. 用 ICE 给实验排序 - Impact:潜在收益 - Confidence:证据质量 - Ease:成本/速度/复杂度 ICE 分数 = (Impact Confidence Ease) / 10 5. 启动并设定停止规则 - 预先确定固定样本量或固定实验时长 - 避免无合适方法的反复“偷看” - 持续监控护栏指标 6. 解读结果 - 统计显著 ≠ 业务显著 - 将点估计 + 置信区间与决策阈值比较 - 调查新奇效应与分群异质性 ## 假设质量检查清单 - [ ] 明确干预措施与受众 - [ ] 指定可度量的指标变化 - [ ] 给出合理的因果理由 - [ ] 包含预期最小效应 - [ ] 定义失败条件 ## 常见实验陷阱 - 功效不足导致假阴性 - 同时改动过多、缺乏隔离 - 实验中途修改受众或实现方式 - 因随机波动提前停止 - 忽视样本比例失衡与埋点漂移 - 只看 p 值、忽略效应量就宣布成功 ## 统计解读护栏 - p 值 < alpha 仅说明反对原假设的证据,非绝对真理。 - 置信区间跨越零/无效应线时,方向性结论不确定。 - 区间很宽时,即使显著也意味精度低。 - 用与业务影响挂钩的实际显著阈值。 参见: - references/experiment-playbook.md - references/statistics-reference.md ## 工具 ### scripts/sample_size_calculator.py 根据以下参数计算所需样本量(每版本及总计): - baseline rate - MDE(绝对或相对) - significance level (alpha) - statistical power 示例: `bash python3 scripts/sample_size_calculator.py \ --baseline-rate 0.10 \ --mde 0.015 \ --mde-type absolute \ --alpha 0.05 \ --power 0.8 ``