📦 Skill Tester CnClaude — 技能测试器 CnClaude

v1.0.0

Code技能测试框架。自动分析技能定义、生成测试用例、执行功能测试并生成详细的评分测试报告。当用户要求“测试技能”、“评估技能”、“检查技能是否工作”、“验证技能功能”时触发此技能。

0· 6·0 当前·0 累计

by @zhouchang1988 (Zhou Chang)

开发工具代码生成测试工具 AI模型访问

下载技能包

最后更新

2026/4/20

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的用途（测试其他技能）与其说明一致，但运行时步骤允许读取任意技能文件，并可选择执行这些技能或其脚本——这些操作可能访问机密或进行网络活动——因此使用前需谨慎并加以限制。

评估建议

该技能出于合法测试目的需要读取其他技能的 SKILL.md 及其资源，但其运行时指令也允许执行这些技能或其脚本。安装或运行前：1）仅在沙箱环境（隔离 VM/容器）或目标技能副本上运行测试器；2）手动审查目标 SKILL.md 及所有引用的脚本/资源，确认无危险行为后再允许“真实”执行；3）测试器执行任何操作或网络访问前须获得用户明确确认；4）避免针对可能访问生产凭据或敏感配置的技能运行；5）建议将代理设为对每个会执行代码的测试用例都要求用户批准。以上措施可降低意外数据泄露或有害副作用的风险。...

详细分析 ▾

ℹ 用途与能力

名称/描述（一个用于分析和测试 Claude 技能的框架）与 SKILL.md 匹配：它解析 SKILL.md，生成测试用例，运行测试并撰写报告。需要访问技能文件和 assets 是预期行为。注意：SKILL.md 明确搜索用户路径如 ~/.claude/skills/<name>/SKILL.md，这与所述目的一致，但确实意味着需要访问文件系统。

⚠ 指令范围

指令要求智能体定位并读取目标 SKILL.md 文件及其打包资源（脚本、资源、文档），然后“执行”测试（“模拟或实际运行”）。这使智能体有权酌情运行其他技能的代码、调用脚本或发起网络请求。虽然执行被测技能是合理的测试步骤，但 SKILL.md 对安全边界语焉不详，也未要求在运行可能任意的代码或触发网络 I/O 前获得用户明确确认或进行沙箱隔离——这可能导致凭据、敏感文件泄露或产生意外副作用。

✓ 安装机制

仅含指令的技能，无安装规范，无捆绑代码。零摩擦：安装步骤不会写入磁盘。这与通过指令运行的分析/测试助手一致。

ℹ 凭证需求

该 skill 未声明任何必需的环境变量或凭据，这是合适的。然而，由于它会读取其他 skill 的 SKILL.md 和资源，并可能执行它们，这些目标 skill 本身可能会读取环境变量、配置文件或需要凭据。测试人员未记录任何防护措施，以避免在测试期间暴露或转发机密信息。

✓ 持久化与权限

标记始终为 false，且未请求配置路径或持久权限。该技能未要求强制启用或修改其他技能的配置，这是合适的。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/20

发布 v1.0.0

● 无害

安装命令

点击复制

官方npx clawhub@latest install skill-tester-cn

镜像加速npx clawhub@latest install skill-tester-cn --registry https://cn.longxiaskill.com

技能文档

# 技能测试器通过分析技能定义、生成全面的测试用例、执行测试并生成带评分的详细报告，系统化地测试和评估 Claude Code 技能。 ## 测试工作流程按顺序执行以下步骤： ### 1. 定位目标技能识别要测试的技能： `` 用户说: "测试 PDF 技能" → 搜索: ~/.claude/skills/pdf/SKILL.md 或 pdf/SKILL.md ` 常见技能位置： - ~/.claude/skills/<技能名称>/SKILL.md - ./<技能名称>/SKILL.md - 用户提供的路径如果未找到技能，请询问用户正确的路径。 ### 2. 解析技能定义读取目标技能的 SKILL.md 并提取：从前置数据中提取： - name - 技能标识符 - description - 技能功能描述（用于触发场景）从正文内容中提取： - 核心能力和功能 - 工作流程或程序 - 打包资源（脚本、参考文档、资产） - 使用示例或模式 ### 3. 生成测试计划创建覆盖以下内容的全面测试计划： A. 触发测试 - 测试技能是否在描述的场景中被激活 - 测试边界情况（相似但不同的请求） - 测试非触发场景（不应该激活的情况） B. 功能测试针对识别的每个能力/功能： - 正常用例（正常使用） - 边界情况（边界条件） - 错误处理（无效输入） C. 资源测试（如适用） - 脚本执行 - 参考文档可用性 - 资产可访问性 ### 4. 执行测试对于每个测试用例： 1. 准备测试提示 - 编写应该触发功能的用户请求 2. 执行 - 应用测试提示（模拟或实际运行） 3. 观察 - 记录技能的行为 4. 评估 - 与预期结果进行比较使用一致的格式执行测试： ` 测试用例: [名称] 提示: "[用户请求]" 预期: [应该发生什么] 实际: [实际发生了什么] 结果: 通过 / 失败 / 部分通过备注: [观察、问题、建议] ` ### 5. 评分每个测试使用以下标准进行评分： | 分数 | 含义 | 标准 | |------|------|------| | 5 | 优秀 | 完美执行，满足所有预期 | | 4 | 良好 | 轻微问题，核心功能正常 | | 3 | 可接受 | 可用但有明显局限 | | 2 | 较差 | 重大问题，勉强可用 | | 1 | 失败 | 无法按预期工作 | | 0 | 不适用 | 测试不适用 | ### 6. 生成测试报告创建具有以下结构的 Markdown 报告： `markdown # 技能测试报告: [技能名称] 测试日期: [日期] 技能位置: [路径] ## 概要 - 总体评分: [X]/5 - 通过测试: [X]/[总数] - 失败测试: [X] - 关键问题: [列表或"无"] ## 测试结果 ### 1. 触发测试 | 测试用例 | 提示 | 预期 | 实际 | 分数 | |----------|------|------|------|------| | ... | ... | ... | ... | ... | ### 2. 功能测试 #### [功能名称] | 测试用例 | 描述 | 结果 | 分数 | 备注 | |----------|------|------|------|------| | ... | ... | ... | ... | ... | ### 3. 资源测试 [如适用] ## 详细发现 ### 优势 - [技能做得好的方面] ### 不足 - [需要改进的方面] ### 建议 - [具体的改进建议] ## 测试环境 - Claude 模型: [使用的模型] - 测试方法: [模拟/执行] - 测试深度: [基础/全面] --- 报告由 skill-tester-cn 生成 ` 将报告保存到当前工作目录：[技能名称]-测试报告-[时间戳].md ## 测试指南 ### 全面覆盖测试技能描述和正文中提到的所有能力，不要跳过功能。示例：如果技能声称支持"PDF创建、编辑和旋转"，测试所有三项： 1. 创建 PDF 2. 编辑现有 PDF 3. 旋转 PDF ### 真实的测试提示使用真实用户会说的自然语言提示： ✅ 好: "帮我合并这两个 PDF" ❌ 差: "执行 PDF 合并功能" ### 需要考虑的边界情况 - 空输入（空文件、空白字符串） - 无效输入（错误的文件类型、格式错误的数据） - 边界条件（非常大的文件、大量项目） - 资源缺失（引用的文件不存在） - 并发操作（多个同时请求） ### 客观评估基于实际行为而非理论能力评分： - 如果功能已记录但不起作用 → 失败 - 如果功能工作方式与记录不同 → 部分通过 - 如果功能按记录工作 → 通过 ### 处理测试失败当测试失败时： 1. 记录确切的失败模式 2. 检查是技能问题还是环境问题 3. 建议潜在的修复方案 4. 继续测试其他功能 ## 使用示例 ` 用户: "测试 docx 技能" 助手: 1. 定位: ~/.claude/skills/docx/SKILL.md 2. 解析: 读取技能定义 3. 识别能力: - 创建新文档 - 编辑现有文档 - 处理修订跟踪 - 添加注释 - 提取文本 4. 为每个能力生成测试用例 5. 执行测试（模拟或实际） 6. 生成: docx-测试报告-2025-01-15.md `` ## 评分标准总结 总体评分计算： - 所有测试分数的平均值（不包括不适用测试） - 保留1位小数 分数解读： - 4.5-5.0: 生产就绪 - 3.5-4.4: 良好，有轻微问题 - 2.5-3.4: 需要改进 - 1.5-2.4: 有重大问题 - 0.0-1.4: 不可用

数据来源：ClawHub ↗ · 中文优化：龙虾技能库