taobao-mcp-benchmark — 淘宝MCP基准测试

v1.4.1

淘宝桌面版MCP工具评测框架。用于系统化测试MCP工具的各项功能，生成专业的技术评测报告。使用场景：需要对淘宝MCP工具进行评测、测试、验收、迭代验证。

0· 25·0 当前·0 累计

by @zironglv·MIT-0

生产力工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install taobao-mcp-benchmark

镜像加速npx clawhub@latest install taobao-mcp-benchmark --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

淘宝桌面版MCP评测框架概述本skill提供一套系统化的评测框架，用于测试淘宝桌面版MCP工具的各项功能，并生成专业的技术评测报告。执行原则（必须遵守）原子性执行评测任务一旦开始，必须完整执行完成，不可中断。原则说明不可中断开始评测后，必须完成所有5个任务 + 生成报告完整流程初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理状态跟踪每个任务完成后记录checkpoint，便于恢复用户提醒如用户试图中断，提醒"评测任务未完成，是否继续？" 任务状态管理评测开始时创建状态文件 ~/.copaw/tasks/benchmark_YYYYMMDD_HHMMSS/status.json： { "benchmark_id": "20260317_145034", "version": "1.2.0", "start_time": "2026-03-17 14:50:00", "status": "running", "current_task": 1, "tasks": [ { "id": 1, "name": "淘金币签到", "status": "pending", "score": null }, { "id": 2, "name": "商品搜索+对比+加购", "status": "pending", "score": null }, { "id": 3, "name": "订单管理", "status": "pending", "score": null }, { "id": 4, "name": "获取购物车以及降价信息", "status": "pending", "score": null }, { "id": 5, "name": "客服咨询对话", "status": "pending", "score": null } ], "screenshots": [], "report_generated": false } 每个任务完成后立即更新状态： # 任务完成后更新 echo '{"id": 1, "status": "completed", "score": 9, "end_time": "..."}' >> status.json 中断恢复机制如果会话中断，下次用户询问评测时：检查 status.json 是否存在如果存在未完成任务：提示用户："发现未完成的评测任务（任务X/Y），是否继续？" 用户确认后，从 current_task 继续执行如果已完成但未生成报告：直接生成报告执行流程图开始评测 │ ▼ 创建任务目录 + status.json │ ▼ ┌─────────────────────────────┐ │ 任务1：淘金币签到 │◄─── 记录截图、耗时、结果 │ 任务2：商品搜索+对比+加购 │◄─── 记录截图、耗时、结果 │ 任务3：订单管理 │◄─── 记录截图、耗时、结果 │ 任务4：获取购物车以及降价信息 │◄─── 记录截图、耗时、结果 │ 任务5：客服咨询对话 │◄─── 记录截图、耗时、结果 │ └─────────────────────────────┘ │ ▼ 收集所有截图 │ ▼ 生成 Word 报告（含截图） │ ▼ 更新 status.json → completed │ ▼ 输出评测结果摘要禁止操作禁止行为原因 ❌ 任务中途停止导致评测数据不完整 ❌ 跳过任务影响总分计算 ❌ 跳过截图报告缺失关键证据 ❌ 不生成报告用户无法查看结果用户中断处理如果用户在评测过程中说"停"、"不做了"等： AI：⚠️ 评测任务尚未完成（已完成 X/5 个任务）。中断将导致评测数据不完整，无法生成完整报告。是否继续完成评测？（建议选择"继续"）

继续：继续执行剩余任务
中断：停止评测，生成不完整报告（不推荐）

适用场景 MCP工具版本更新后的回归测试新功能发布前的验收测试定期质量检查和稳定性监控问题复现和性能基准测试评测任务清单任务1：淘金币签到（权重 25%）测试目标：验证导航、元素识别、点击操作的稳定性测试步骤： navigate → 首页 scan_page_elements → 识别淘金币入口 click_element → 进入淘金币页面 read_page_content → 读取金币数量完成签到任务（逛商品等）验证金币增加评分标准：指标分值导航成功 2分元素识别准确 2分点击操作成功 2分金币增加验证 2分流程顺畅度 2分任务2：商品搜索+对比+加购（权重 30%）测试目标：验证搜索、详情查看、SKU选择、加购流程测试步骤： search_products → 搜索关键词（如"保温杯"） read_page_content → 读取搜索结果筛选前3个商品进行对比 click_element → 进入商品详情页 read_page_content → 读取商品信息 add_to_cart → 加入购物车（带SKU参数）评分标准：指标分值搜索返回结果 2分商品详情页导航 2分信息提取完整 2分 SKU选择准确 2分加购成功 2分任务3：订单管理（权重 20%）测试目标：验证订单页面导航、状态筛选功能测试步骤： navigate → 订单页面 scan_page_elements → 识别筛选标签依次测试：待付款、待发货、待收货、待评价 read_page_content → 读取订单列表验证筛选功能正常评分标准：指标分值订单页面导航 2分筛选标签识别 2分筛选功能正常 2分订单信息读取 2分页面切换流畅 2分任务4：获取购物车以及降价信息（权重 20%）测试目标：验证购物车导航、商品列表读取、降价信息提取测试步骤： navigate → 购物车页面 read_page_content → 读取商品列表统计购物车商品总数点击"降价"标签筛选降价商品 read_page_content → 读取降价商品详情记录降价商品数量和降价金额评分标准：指标分值购物车导航成功 2分商品列表读取完整 2分降价标签点击成功 2分降价信息提取准确 2分数据记录完整 2分输出数据：购物车商品总数降价商品数量每个降价商品的：商品名、原价、券后价、降价金额任务5：客服咨询对话（权重 15%）测试目标：验证搜索商品、发起客服咨询、多轮对话功能测试步骤：随机选择一个商品主题（如：鼠标、键盘、台灯等） search_products → 搜索商品 open_chat_from_search → 进入商家客服对话发起第一轮咨询："你好，请问这个商品今天下单，3天后能到杭州吗？" 等待客服回复（最多60秒） send_chat_message → 发起第二轮追问："好的，那发什么快递呢？可以发顺丰吗？" 等待客服回复（最多60秒）记录两轮对话内容评分标准：指标分值商品搜索成功 1分进入客服对话 1分第一轮对话发送成功 1.5分客服第一次回复接收 1.5分第二轮追问发送成功 2分客服第二次回复接收 2分对话记录完整 1分工具调用： # 搜索商品 search_products keyword="鼠标" # 通过搜索进入客服对话 open_chat_from_search query="鼠标" message="你好，请问这个商品今天下单，3天后能到杭州吗？" # 发送第二轮追问（等待客服回复后） send_chat_message message="好的，那发什么快递呢？可以发顺丰吗？" 注意事项：优先选择官方旗舰店或高销量店铺如果客服回复较慢，等待时间不超过

License

运行时依赖

安装命令

技能文档

相关技能推荐