AB Test Setup — A/B测试规划

Name: AB Test Setup — A/B测试规划
Author: amdf01-debug

amdf01-debug

AB Test Setup — A/B测试规划

v1.0.0

规划A/B测试，包含清晰的假设、定义指标、变体设计、样本量、持续时间和统计显著性指南。

0· 119·0 当前·0 累计

by @amdf01-debug·MIT-0

测试工具开发工具

下载技能包

License

MIT-0

最后更新

2026/3/22

安全扫描

VirusTotal

Pending

查看报告

OpenClaw

安全

high confidence

这是一个纯指令技能，提供连贯的、独立的A/B测试规划清单和输出模板，不请求额外权限、凭证或执行任何安装操作。

评估建议

该技能是A/B测试的离线规划模板，看起来是独立的。从访问/权限角度可以安全安装，但请注意：(1) 使用模板时提供准确的流量和基准数据，以便样本量估算有意义；(2) 避免在传递给智能体的示例中包含任何个人可识别信息(PII)；(3) 智能体默认可以自主调用该技能——如果偏好手动控制，请在启用技能前在智能体设置中禁用自主调用。...

详细分析 ▾

✓ 用途与能力

名称和描述（A/B测试规划）与SKILL.md匹配：提供假设、指标、样本量、持续时间、设计和决策规则。该技能不请求无关的二进制文件、环境变量或凭证。

✓ 指令范围

运行时指令仅限于规划步骤、输出格式和运行/决定测试的规则。它们不会指示智能体读取本地文件、访问环境变量、调用外部端点或执行系统操作。

✓ 安装机制

无安装规范和代码文件——该技能是纯指令式的，因此在设置期间不会向磁盘写入或安装任何内容。

✓ 凭证需求

该技能未声明任何环境变量、凭证或配置路径，指令也不引用任何密钥或外部服务令牌。

✓ 持久化与权限

always为false（无强制包含）。disable-model-invocation默认为false（智能体可以自主调用该技能），这对于技能来说是正常的，在此可接受，因为该技能没有敏感访问权限。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/22

首次发布

● Pending

安装命令点击复制

官方npx clawhub@latest install sw-ab-test-setup

镜像加速npx clawhub@latest install sw-ab-test-setup --registry https://cn.clawhub-mirror.com

技能文档

触发词

使用正确的方法论规划A/B测试——假设、样本量、持续时间、变体设计、统计显著性。

触发短语： "A/B test"、"split test"、"experiment"、"test this change"、"variant"、"multivariate test"、"hypothesis"

流程

假设：你在测试什么？为什么？
指标：主要指标、护栏指标、成功标准
设计：对照版vs变体版，具体改变了什么
计算：样本量、测试持续时间、最小可检测效应
计划：实施、QA、分析时间线

输出格式

# A/B测试计划：[名称]
假设
如果[改变]，[指标]将[改善/增加]，因为[原因]。
变体
对照版(A)：[当前体验]
变体(B)：[建议更改——请具体说明]
指标
主要：[指标]——当前：[X%]——目标：[Y%]
护栏：[不应下降的指标]
样本量与持续时间
MDE：[最小可检测效应，例如10%相对]
所需样本：[每个变体N个]
当前流量：[测试区域每天X位访客]
预计持续时间：[Y天/周]
置信水平：95%
实施说明
[需要更改的内容、地点、任何技术考虑]
决策框架
如果主要指标改善≥MDE且p<0.05→发布变体
如果[持续时间]后无显著差异→保持对照版
如果护栏指标下降>[阈值]→立即停止测试

规则

没有假设就不要运行测试
每次测试一个更改（除非有足够流量的多变量测试）
至少运行2个完整的业务周期（通常为2周）
不要每天查看结果——预先承诺评估日期
最低95%置信水平。最低80%统计功效。
记录一切：未来的你需要知道为什么测试这个

Trigger

Plan A/B tests with proper methodology — hypothesis, sample size, duration, variant design, statistical significance.

Trigger phrases: "A/B test", "split test", "experiment", "test this change", "variant", "multivariate test", "hypothesis"

Process

Hypothesis: What are you testing and why?
Metrics: Primary metric, guardrail metrics, success criteria
Design: Control vs variant(s), what exactly changes
Calculate: Sample size, test duration, minimum detectable effect
Plan: Implementation, QA, analysis timeline

Output Format

# A/B Test Plan: [Name]
Hypothesis
If we [change], then [metric] will [improve/increase] because [reason].
Variants
Control (A): [current experience]
Variant (B): [proposed change — be specific]
Metrics
Primary: [metric] — current: [X%] — target: [Y%]
Guardrail: [metric that should NOT decrease]
Sample Size & Duration
MDE: [minimum detectable effect, e.g., 10% relative]
Sample needed: [N per variant]
Current traffic: [X visitors/day to test area]
Estimated duration: [Y days/weeks]
Confidence level: 95%
Implementation Notes
[What needs to change, where, any technical considerations]
Decision Framework
If primary metric improves ≥ MDE with p < 0.05 → ship variant
If no significant difference after [duration] → keep control
If guardrail metric drops > [threshold] → stop test immediately

Rules

Never run a test without a hypothesis
One change per test (unless multivariate with sufficient traffic)
Run for minimum 2 full business cycles (usually 2 weeks)
Don't peek at results daily — pre-commit to evaluation date
95% confidence minimum. 80% power minimum.
Document everything: future you needs to know why this was tested

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

触发词

流程

输出格式

假设

变体

指标

样本量与持续时间

实施说明

决策框架

规则

Trigger

Process

Output Format

Hypothesis

Variants

Metrics

Sample Size & Duration

Implementation Notes

Decision Framework

Rules

安装命令点击复制