📦 Skill Tester CnClaude — 技能测试器 CnClaude

v1.0.0

Code技能测试框架。自动分析技能定义、生成测试用例、执行功能测试并生成详细的评分测试报告。当用户要求“测试技能”、“评估技能”、“检查技能是否工作”、“验证技能功能”时触发此技能。

0· 6·0 当前·0 累计
zhouchang1988 头像by @zhouchang1988 (Zhou Chang)
下载技能包
最后更新
2026/4/20
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能的用途(测试其他技能)与其说明一致,但运行时步骤允许读取任意技能文件,并可选择执行这些技能或其脚本——这些操作可能访问机密或进行网络活动——因此使用前需谨慎并加以限制。
评估建议
该技能出于合法测试目的需要读取其他技能的 SKILL.md 及其资源,但其运行时指令也允许执行这些技能或其脚本。安装或运行前:1)仅在沙箱环境(隔离 VM/容器)或目标技能副本上运行测试器;2)手动审查目标 SKILL.md 及所有引用的脚本/资源,确认无危险行为后再允许“真实”执行;3)测试器执行任何操作或网络访问前须获得用户明确确认;4)避免针对可能访问生产凭据或敏感配置的技能运行;5)建议将代理设为对每个会执行代码的测试用例都要求用户批准。以上措施可降低意外数据泄露或有害副作用的风险。...
详细分析 ▾
用途与能力
名称/描述(一个用于分析和测试 Claude 技能的框架)与 SKILL.md 匹配:它解析 SKILL.md,生成测试用例,运行测试并撰写报告。需要访问技能文件和 assets 是预期行为。注意:SKILL.md 明确搜索用户路径如 ~/.claude/skills/<name>/SKILL.md,这与所述目的一致,但确实意味着需要访问文件系统。
指令范围
指令要求智能体定位并读取目标 SKILL.md 文件及其打包资源(脚本、资源、文档),然后“执行”测试(“模拟或实际运行”)。这使智能体有权酌情运行其他技能的代码、调用脚本或发起网络请求。虽然执行被测技能是合理的测试步骤,但 SKILL.md 对安全边界语焉不详,也未要求在运行可能任意的代码或触发网络 I/O 前获得用户明确确认或进行沙箱隔离——这可能导致凭据、敏感文件泄露或产生意外副作用。
安装机制
仅含指令的技能,无安装规范,无捆绑代码。零摩擦:安装步骤不会写入磁盘。这与通过指令运行的分析/测试助手一致。
凭证需求
该 skill 未声明任何必需的环境变量或凭据,这是合适的。然而,由于它会读取其他 skill 的 SKILL.md 和资源,并可能执行它们,这些目标 skill 本身可能会读取环境变量、配置文件或需要凭据。测试人员未记录任何防护措施,以避免在测试期间暴露或转发机密信息。
持久化与权限
标记始终为 false,且未请求配置路径或持久权限。该技能未要求强制启用或修改其他技能的配置,这是合适的。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/20

发布 v1.0.0

无害

安装命令

点击复制
官方npx clawhub@latest install skill-tester-cn
镜像加速npx clawhub@latest install skill-tester-cn --registry https://cn.longxiaskill.com

技能文档

# 技能测试器 通过分析技能定义、生成全面的测试用例、执行测试并生成带评分的详细报告,系统化地测试和评估 Claude Code 技能。 ## 测试工作流程 按顺序执行以下步骤: ### 1. 定位目标技能 识别要测试的技能: `` 用户说: "测试 PDF 技能" → 搜索: ~/.claude/skills/pdf/SKILL.md 或 pdf/SKILL.md ` 常见技能位置: - ~/.claude/skills/<技能名称>/SKILL.md - ./<技能名称>/SKILL.md - 用户提供的路径 如果未找到技能,请询问用户正确的路径。 ### 2. 解析技能定义 读取目标技能的 SKILL.md 并提取: 从前置数据中提取: - name - 技能标识符 - description - 技能功能描述(用于触发场景) 从正文内容中提取: - 核心能力和功能 - 工作流程或程序 - 打包资源(脚本、参考文档、资产) - 使用示例或模式 ### 3. 生成测试计划 创建覆盖以下内容的全面测试计划: A. 触发测试 - 测试技能是否在描述的场景中被激活 - 测试边界情况(相似但不同的请求) - 测试非触发场景(不应该激活的情况) B. 功能测试 针对识别的每个能力/功能: - 正常用例(正常使用) - 边界情况(边界条件) - 错误处理(无效输入) C. 资源测试(如适用) - 脚本执行 - 参考文档可用性 - 资产可访问性 ### 4. 执行测试 对于每个测试用例: 1. 准备测试提示 - 编写应该触发功能的用户请求 2. 执行 - 应用测试提示(模拟或实际运行) 3. 观察 - 记录技能的行为 4. 评估 - 与预期结果进行比较 使用一致的格式执行测试: ` 测试用例: [名称] 提示: "[用户请求]" 预期: [应该发生什么] 实际: [实际发生了什么] 结果: 通过 / 失败 / 部分通过 备注: [观察、问题、建议] ` ### 5. 评分每个测试 使用以下标准进行评分: | 分数 | 含义 | 标准 | |------|------|------| | 5 | 优秀 | 完美执行,满足所有预期 | | 4 | 良好 | 轻微问题,核心功能正常 | | 3 | 可接受 | 可用但有明显局限 | | 2 | 较差 | 重大问题,勉强可用 | | 1 | 失败 | 无法按预期工作 | | 0 | 不适用 | 测试不适用 | ### 6. 生成测试报告 创建具有以下结构的 Markdown 报告: `markdown # 技能测试报告: [技能名称] 测试日期: [日期] 技能位置: [路径] ## 概要 - 总体评分: [X]/5 - 通过测试: [X]/[总数] - 失败测试: [X] - 关键问题: [列表或"无"] ## 测试结果 ### 1. 触发测试 | 测试用例 | 提示 | 预期 | 实际 | 分数 | |----------|------|------|------|------| | ... | ... | ... | ... | ... | ### 2. 功能测试 #### [功能名称] | 测试用例 | 描述 | 结果 | 分数 | 备注 | |----------|------|------|------|------| | ... | ... | ... | ... | ... | ### 3. 资源测试 [如适用] ## 详细发现 ### 优势 - [技能做得好的方面] ### 不足 - [需要改进的方面] ### 建议 - [具体的改进建议] ## 测试环境 - Claude 模型: [使用的模型] - 测试方法: [模拟/执行] - 测试深度: [基础/全面] --- 报告由 skill-tester-cn 生成 ` 将报告保存到当前工作目录:[技能名称]-测试报告-[时间戳].md ## 测试指南 ### 全面覆盖 测试技能描述和正文中提到的所有能力,不要跳过功能。 示例: 如果技能声称支持"PDF创建、编辑和旋转",测试所有三项: 1. 创建 PDF 2. 编辑现有 PDF 3. 旋转 PDF ### 真实的测试提示 使用真实用户会说的自然语言提示: ✅ 好: "帮我合并这两个 PDF" ❌ 差: "执行 PDF 合并功能" ### 需要考虑的边界情况 - 空输入(空文件、空白字符串) - 无效输入(错误的文件类型、格式错误的数据) - 边界条件(非常大的文件、大量项目) - 资源缺失(引用的文件不存在) - 并发操作(多个同时请求) ### 客观评估 基于实际行为而非理论能力评分: - 如果功能已记录但不起作用 → 失败 - 如果功能工作方式与记录不同 → 部分通过 - 如果功能按记录工作 → 通过 ### 处理测试失败 当测试失败时: 1. 记录确切的失败模式 2. 检查是技能问题还是环境问题 3. 建议潜在的修复方案 4. 继续测试其他功能 ## 使用示例 ` 用户: "测试 docx 技能" 助手: 1. 定位: ~/.claude/skills/docx/SKILL.md 2. 解析: 读取技能定义 3. 识别能力: - 创建新文档 - 编辑现有文档 - 处理修订跟踪 - 添加注释 - 提取文本 4. 为每个能力生成测试用例 5. 执行测试(模拟或实际) 6. 生成: docx-测试报告-2025-01-15.md `` ## 评分标准总结 总体评分计算: - 所有测试分数的平均值(不包括不适用测试) - 保留1位小数 分数解读: - 4.5-5.0: 生产就绪 - 3.5-4.4: 良好,有轻微问题 - 2.5-3.4: 需要改进 - 1.5-2.4: 有重大问题 - 0.0-1.4: 不可用

数据来源ClawHub ↗ · 中文优化:龙虾技能库