Prompt Evaluation 评估并基准测试 AI prompt 的质量、一致性与性能,系统打分、对比、优化。
概述 一套 prompt 评估框架,帮助 agent 从清晰度、具体性、鲁棒性、成本效率、输出一致性等多维度衡量 prompt 质量,对比不同变体,锁定最优版本。
能力
node evaluate.js score --prompt "Summarize the article" --dimensions clarity,specificity,robustness
node evaluate.js score --prompt-file ./prompts/ --output scores.json
按清晰度(0-10)、具体性(0-10)、鲁棒性(0-10)、成本效率(0-10) 给 prompt 打分。
node evaluate.js compare --prompt-a "Summarize" --prompt-b "Write a 3-bullet summary" --trials 50
node evaluate.js compare --config ab-test-config.json
对 prompt 变体进行统计 A/B 测试,含显著性分析。
node evaluate.js consistency --prompt "Translate to French" --runs 100 --variance-threshold 0.15
node evaluate.js consistency --temperature 0.7 --top-p 0.9
多次运行测量输出一致性,找出最稳定的 prompt。
node evaluate.js regression --baseline v1.0 --current v1.1 --test-suite golden-set.jsonl
node evaluate.js regression --fail-on-degradation 5%
用 golden test set 检测 prompt 版本间质量回退。
node evaluate.js cost --prompt "Long prompt..." --model gpt-4 --estimate-tokens
node evaluate.js cost --compare-prompts --output cost-report.csv
估算不同 prompt 与模型的 token 用量与费用。
配置
{
"evaluation": {
"dimensions": ["clarity", "specificity", "robustness", "cost"],
"scoringModel": "gpt-4",
"abTest": { "trials": 50, "significanceLevel": 0.05 },
"consistency": { "runs": 100, "varianceThreshold": 0.15 },
"regression": { "degradationThreshold": "5%", "goldenSet": "./golden-set.jsonl" }
}
}
用例
Prompt Engineering:系统提升 prompt 质量
Quality Assurance:上线前确保 prompt 达标
Cost Optimization:用更少 token 达成目标
Version Control:追踪各版本 prompt 质量
Agent Tuning:优化 agent system prompt 一致性