运行时依赖
安装命令
点击复制技能文档
淘宝桌面版MCP评测框架 概述 本skill提供一套系统化的评测框架,用于测试淘宝桌面版MCP工具的各项功能,并生成专业的技术评测报告。 执行原则(必须遵守) 原子性执行 评测任务一旦开始,必须完整执行完成,不可中断。 原则 说明 不可中断 开始评测后,必须完成所有5个任务 + 生成报告 完整流程 初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理 状态跟踪 每个任务完成后记录checkpoint,便于恢复 用户提醒 如用户试图中断,提醒"评测任务未完成,是否继续?" 任务状态管理 评测开始时创建状态文件 ~/.copaw/tasks/benchmark_YYYYMMDD_HHMMSS/status.json: { "benchmark_id": "20260317_145034", "version": "1.2.0", "start_time": "2026-03-17 14:50:00", "status": "running", "current_task": 1, "tasks": [ { "id": 1, "name": "淘金币签到", "status": "pending", "score": null }, { "id": 2, "name": "商品搜索+对比+加购", "status": "pending", "score": null }, { "id": 3, "name": "订单管理", "status": "pending", "score": null }, { "id": 4, "name": "获取购物车以及降价信息", "status": "pending", "score": null }, { "id": 5, "name": "客服咨询对话", "status": "pending", "score": null } ], "screenshots": [], "report_generated": false } 每个任务完成后立即更新状态: # 任务完成后更新 echo '{"id": 1, "status": "completed", "score": 9, "end_time": "..."}' >> status.json 中断恢复机制 如果会话中断,下次用户询问评测时: 检查 status.json 是否存在 如果存在未完成任务: 提示用户:"发现未完成的评测任务(任务X/Y),是否继续?" 用户确认后,从 current_task 继续执行 如果已完成但未生成报告: 直接生成报告 执行流程图 开始评测 │ ▼ 创建任务目录 + status.json │ ▼ ┌─────────────────────────────┐ │ 任务1:淘金币签到 │◄─── 记录截图、耗时、结果 │ 任务2:商品搜索+对比+加购 │◄─── 记录截图、耗时、结果 │ 任务3:订单管理 │◄─── 记录截图、耗时、结果 │ 任务4:获取购物车以及降价信息 │◄─── 记录截图、耗时、结果 │ 任务5:客服咨询对话 │◄─── 记录截图、耗时、结果 │ └─────────────────────────────┘ │ ▼ 收集所有截图 │ ▼ 生成 Word 报告(含截图) │ ▼ 更新 status.json → completed │ ▼ 输出评测结果摘要 禁止操作 禁止行为 原因 ❌ 任务中途停止 导致评测数据不完整 ❌ 跳过任务 影响总分计算 ❌ 跳过截图 报告缺失关键证据 ❌ 不生成报告 用户无法查看结果 用户中断处理 如果用户在评测过程中说"停"、"不做了"等: AI:⚠️ 评测任务尚未完成(已完成 X/5 个任务)。 中断将导致评测数据不完整,无法生成完整报告。 是否继续完成评测?(建议选择"继续")
- 继续:继续执行剩余任务
- 中断:停止评测,生成不完整报告(不推荐)