首页龙虾技能列表 › AB Test Setup — A/B测试规划

AB Test Setup — A/B测试规划

v1.0.0

规划A/B测试,包含清晰的假设、定义指标、变体设计、样本量、持续时间和统计显著性指南。

0· 119·0 当前·0 累计
by @amdf01-debug·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/22
安全扫描
VirusTotal
Pending
查看报告
OpenClaw
安全
high confidence
这是一个纯指令技能,提供连贯的、独立的A/B测试规划清单和输出模板,不请求额外权限、凭证或执行任何安装操作。
评估建议
该技能是A/B测试的离线规划模板,看起来是独立的。从访问/权限角度可以安全安装,但请注意:(1) 使用模板时提供准确的流量和基准数据,以便样本量估算有意义;(2) 避免在传递给智能体的示例中包含任何个人可识别信息(PII);(3) 智能体默认可以自主调用该技能——如果偏好手动控制,请在启用技能前在智能体设置中禁用自主调用。...
详细分析 ▾
用途与能力
名称和描述(A/B测试规划)与SKILL.md匹配:提供假设、指标、样本量、持续时间、设计和决策规则。该技能不请求无关的二进制文件、环境变量或凭证。
指令范围
运行时指令仅限于规划步骤、输出格式和运行/决定测试的规则。它们不会指示智能体读取本地文件、访问环境变量、调用外部端点或执行系统操作。
安装机制
无安装规范和代码文件——该技能是纯指令式的,因此在设置期间不会向磁盘写入或安装任何内容。
凭证需求
该技能未声明任何环境变量、凭证或配置路径,指令也不引用任何密钥或外部服务令牌。
持久化与权限
always为false(无强制包含)。disable-model-invocation默认为false(智能体可以自主调用该技能),这对于技能来说是正常的,在此可接受,因为该技能没有敏感访问权限。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/22

首次发布

● Pending

安装命令 点击复制

官方npx clawhub@latest install sw-ab-test-setup
镜像加速npx clawhub@latest install sw-ab-test-setup --registry https://cn.clawhub-mirror.com

技能文档

触发词

使用正确的方法论规划A/B测试——假设、样本量、持续时间、变体设计、统计显著性。

触发短语: "A/B test"、"split test"、"experiment"、"test this change"、"variant"、"multivariate test"、"hypothesis"

流程

  • 假设:你在测试什么?为什么?
  • 指标:主要指标、护栏指标、成功标准
  • 设计:对照版vs变体版,具体改变了什么
  • 计算:样本量、测试持续时间、最小可检测效应
  • 计划:实施、QA、分析时间线

输出格式

# A/B测试计划:[名称]

假设

如果[改变],[指标]将[改善/增加],因为[原因]。

变体

  • 对照版(A):[当前体验]
  • 变体(B):[建议更改——请具体说明]

指标

  • 主要:[指标]——当前:[X%]——目标:[Y%]
  • 护栏:[不应下降的指标]

样本量与持续时间

  • MDE:[最小可检测效应,例如10%相对]
  • 所需样本:[每个变体N个]
  • 当前流量:[测试区域每天X位访客]
  • 预计持续时间:[Y天/周]
  • 置信水平:95%

实施说明

[需要更改的内容、地点、任何技术考虑]

决策框架

  • 如果主要指标改善≥MDE且p<0.05→发布变体
  • 如果[持续时间]后无显著差异→保持对照版
  • 如果护栏指标下降>[阈值]→立即停止测试

规则

  • 没有假设就不要运行测试
  • 每次测试一个更改(除非有足够流量的多变量测试)
  • 至少运行2个完整的业务周期(通常为2周)
  • 不要每天查看结果——预先承诺评估日期
  • 最低95%置信水平。最低80%统计功效。
  • 记录一切:未来的你需要知道为什么测试这个
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务