运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install prompt-evaluation
镜像加速npx clawhub@latest install prompt-evaluation --registry https://cn.longxiaskill.com镜像同步中
技能文档
Prompt Evaluation 评估并基准测试 AI prompt 的质量、一致性与性能,系统打分、对比、优化。 概述 一套 prompt 评估框架,帮助 agent 从清晰度、具体性、鲁棒性、成本效率、输出一致性等多维度衡量 prompt 质量,对比不同变体,锁定最优版本。
能力
- 质量打分
- A/B 对比
- 一致性检测
- 回归测试
- 成本分析
配置 { "evaluation": { "dimensions": ["clarity", "specificity", "robustness", "cost"], "scoringModel": "gpt-4", "abTest": { "trials": 50, "significanceLevel": 0.05 }, "consistency": { "runs": 100, "varianceThreshold": 0.15 }, "regression": { "degradationThreshold": "5%", "goldenSet": "./golden-set.jsonl" } } }
用例 Prompt Engineering:系统提升 prompt 质量 Quality Assurance:上线前确保 prompt 达标 Cost Optimization:用更少 token 达成目标 Version Control:追踪各版本 prompt 质量 Agent Tuning:优化 agent system prompt 一致性