AB Test Setup — A/B测试规划
v1.0.0规划A/B测试,包含清晰的假设、定义指标、变体设计、样本量、持续时间和统计显著性指南。
0· 119·0 当前·0 累计
安全扫描
OpenClaw
安全
high confidence这是一个纯指令技能,提供连贯的、独立的A/B测试规划清单和输出模板,不请求额外权限、凭证或执行任何安装操作。
评估建议
该技能是A/B测试的离线规划模板,看起来是独立的。从访问/权限角度可以安全安装,但请注意:(1) 使用模板时提供准确的流量和基准数据,以便样本量估算有意义;(2) 避免在传递给智能体的示例中包含任何个人可识别信息(PII);(3) 智能体默认可以自主调用该技能——如果偏好手动控制,请在启用技能前在智能体设置中禁用自主调用。...详细分析 ▾
✓ 用途与能力
名称和描述(A/B测试规划)与SKILL.md匹配:提供假设、指标、样本量、持续时间、设计和决策规则。该技能不请求无关的二进制文件、环境变量或凭证。
✓ 指令范围
运行时指令仅限于规划步骤、输出格式和运行/决定测试的规则。它们不会指示智能体读取本地文件、访问环境变量、调用外部端点或执行系统操作。
✓ 安装机制
无安装规范和代码文件——该技能是纯指令式的,因此在设置期间不会向磁盘写入或安装任何内容。
✓ 凭证需求
该技能未声明任何环境变量、凭证或配置路径,指令也不引用任何密钥或外部服务令牌。
✓ 持久化与权限
always为false(无强制包含)。disable-model-invocation默认为false(智能体可以自主调用该技能),这对于技能来说是正常的,在此可接受,因为该技能没有敏感访问权限。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/3/22
首次发布
● Pending
安装命令 点击复制
官方npx clawhub@latest install sw-ab-test-setup
镜像加速npx clawhub@latest install sw-ab-test-setup --registry https://cn.clawhub-mirror.com
技能文档
触发词
使用正确的方法论规划A/B测试——假设、样本量、持续时间、变体设计、统计显著性。
触发短语: "A/B test"、"split test"、"experiment"、"test this change"、"variant"、"multivariate test"、"hypothesis"
流程
- 假设:你在测试什么?为什么?
- 指标:主要指标、护栏指标、成功标准
- 设计:对照版vs变体版,具体改变了什么
- 计算:样本量、测试持续时间、最小可检测效应
- 计划:实施、QA、分析时间线
输出格式
# A/B测试计划:[名称]假设
如果[改变],[指标]将[改善/增加],因为[原因]。变体
- 对照版(A):[当前体验]
- 变体(B):[建议更改——请具体说明]
指标
- 主要:[指标]——当前:[X%]——目标:[Y%]
- 护栏:[不应下降的指标]
样本量与持续时间
- MDE:[最小可检测效应,例如10%相对]
- 所需样本:[每个变体N个]
- 当前流量:[测试区域每天X位访客]
- 预计持续时间:[Y天/周]
- 置信水平:95%
实施说明
[需要更改的内容、地点、任何技术考虑]决策框架
- 如果主要指标改善≥MDE且p<0.05→发布变体
- 如果[持续时间]后无显著差异→保持对照版
- 如果护栏指标下降>[阈值]→立即停止测试
规则
- 没有假设就不要运行测试
- 每次测试一个更改(除非有足够流量的多变量测试)
- 至少运行2个完整的业务周期(通常为2周)
- 不要每天查看结果——预先承诺评估日期
- 最低95%置信水平。最低80%统计功效。
- 记录一切:未来的你需要知道为什么测试这个
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制