测试用例评审（Test Case Review）

v1.0.0

对功能测试用例进行自动化、结构化、可量化的质量评审，覆盖完整性、准确性、有效性、规范性、可维护性、可执行性六大核心维度，并深度检查原子性、独立性、可重复性、可追溯性、设计方法运用等优秀特征。输出详细评审报告、缺失场景补充、依赖分析与改进建议。

0· 0·0 当前·0 累计

by @zxpfreesky (zxpFreesky)·MIT-0

生产力工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install testcase-reviewer

镜像加速npx clawhub@latest install testcase-reviewer --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

测试用例评审 SKILL（增强版）

一、技能描述核心功能本技能提供一套可落地、可量化、可部分自动化的功能测试用例评审方案，围绕以下六大质量维度展开，每个维度下细分具体检查点：

维度 | 权重 | 核心关注点 ---|---|--- 完整性 | 30% | 功能点、业务规则、边界值、异常场景、字段校验、状态流转是否全覆盖准确性 | 25% | 前置条件清晰、步骤可执行无歧义、预期结果可验证且能暴露缺陷有效性 | 15% | 用例设计方法运用恰当，能发现目标缺陷；断言不仅包含“做什么”还包含“不做什么” 可执行性 | 10% | 测试数据可构造、环境依赖明确、步骤无跳步、无不可重现操作规范性 | 10% | ID/标题/优先级/类型/术语符合团队标准，可追溯性达标可维护性 | 10% | 原子性、独立性、步骤与数据解耦、结构清晰、易于修改

补充特性（贯穿于上述维度中检查）：

可重复性
可追溯性
原子性
独立性
测试设计方法应用程度（等价类、边界值、判定表、状态转换、正交等）

适用场景

新功能用例初稿的快速自评
代码评审前的用例质量门禁
AI 生成用例后的人工辅助复核
存量用例库的定期审计与优化
测试新人提交用例的导师式反馈

不适用场景

性能测试脚本、自动化代码评审
非功能需求（安全性、可移植性）的深度测试设计（可审查场景覆盖，但不评估测试手法）

二、输入规范前置条件

需求文档和测试用例均为必填项，缺少任一项评审不可启动。
需求文档：评审的基准参照，用于需求覆盖率分析、业务规则覆盖完整性检查、用例准确性验证。
测试用例：评审的直接对象。

输入清单输入项 | 格式要求 | 是否必填 | 说明 ---|---|---|--- 需求文档 | Markdown(.md) / Word(.docx) / PDF / 纯文本 / PRD链接 | 必填 | 需求描述、用户故事、功能列表、业务规则、字段逻辑、流程图等。测试用例 | Excel(.xlsx) / Markdown 表格 / JSON 数组 / 纯文本列表 | 必填 | 必须包含ID、标题、步骤、预期等基础字段。业务规则 | 键值对、表格或结构化描述 | 可选 | 额外补充的业务规则。评审侧重点 | 逗号分隔的关键词 | 可选 | 权限,边界值,异常场景,状态流转团队规范 | 优先级/类型定义、命名规则、模板 | 可选 | 若不提供则采用通用规范

需求文档解析要求评审启动时，需从需求文档中提取以下信息用于评审比对：

功能点清单：识别所有功能需求ID（如 FR-001、FR-002）及其描述
业务规则：提取字段校验规则、联动规则、状态流转规则、条件分支逻辑
异常场景：提取需求中定义的异常反馈机制（错误提示、降级策略、超时处理等）
非功能需求：提取性能指标、安全要求、可用性要求（如有）
字段定义：提取字段类型、校验规则、默认值、枚举值等
流程图/决策表：提取业务流程中的分支条件和状态转换节点

用例字段最低要求无论输入格式如何，单条用例必须至少包含：

用例ID（唯一）
用例标题（简洁、包含动作和对象）
前置条件
测试步骤（明确、可操作）
预期结果（可验证、具体）
用例类型（如功能、UI、接口、异常）
优先级（P0/P1/P2/P3）
关联需求/模块标识（建议必填）

格式校验（隐式前置步骤）评审开始前自动执行格式校验，发现以下问题直接记入 “格式类问题清单” ，不纳入质量评分但必须修正：

必填字段为空
用例ID重复
优先级不在 { P0, P1, P2, P3 } 中
用例类型未在团队定义范围内
表格解析失败、列数不匹配
预期结果包含纯模糊词（如“成功”“正常”且无具体表现）

三、评审逻辑与自动化规则可自动化检测的规则（Rule-based Lint）以下检查可由脚本/工具自动完成，评审报告中会列出违规项：

ID 唯一性：重复则报高严重问题。
必填字段非空：标题、步骤、预期结果为空则报高严重。
优先级合规：超出取值范围报中严重。
关联需求缺失：关联需求为空则提示中严重，降低可追溯性评分。
标题规范性：标题不以动词开头（如"验证""检查"）或过长/过短报低严重。
预期结果模糊词检测：仅含"成功""正确""正常"等且无具体断言，报中严重。
步骤序列混乱：步骤编号不连续、存在跳号报低严重。
用例类型与预期内容匹配：例如用例类型为"异常"，预期却描述成功结果，报中严重。
需求覆盖率检测：将测试用例中的需求ID与需求文档中的功能点逐项比对，识别未覆盖的需求点，报高严重。
预期结果与需求描述一致性：检查测试用例的预期结果是否与需求文档中的业务规则、字段校验规则、异常反馈机制一致，不一致报高严重。

需求文档驱动的评审规则基于需求文档进行以下深度检查：

需求功能点覆盖
业务规则覆盖
字段校验覆盖
异常场景覆盖
预期结果准确性
状态流转覆盖
非功能需求覆盖

需人工/AI 辅助判断的规则以下检查需要结合业务知识或上下文分析，由评审者（或 AI 以问答引导方式）完成：

业务规则覆盖完整性（结合需求文档逐条比对）
边界值、等价类选取合理性
异常场景与真实错误处理逻辑匹配度
步骤是否可独立复现
预期结果是否具备缺陷发现能力
设计方法运用是否恰当

四、测试用例评审报告（输出模板）总体评价

用例总数：X 条
需求功能点总数：X 个（从需求文档提取）
需求覆盖率：X%（已覆盖功能点 / 需求功能点总数）
未覆盖需求点：X 个（列出具体需求ID）
综合评分：XX/100 （等级：A/B/C/D）

等级定义：

A（≥90）：优秀，可直接进入自动化或执行
B（75-89）：良好，少量修改后通过
C（60-74）：需重点修改并复审
D（<60）：打回重写

六大维度得分维度 | 得分 | 满分 | 关键扣分项举例 ---|---|---|--- 完整性 | XX | 30 | 缺少小数边界、权限组合漏测、异常未覆盖准确性 | XX | 25 | 步骤有歧义、预期不具体、数据未指明有效性 | XX | 15 | 未应用设计方法，断言无反向验证可执行

License

运行时依赖

安装命令

技能文档

相关技能推荐