Prompt Evaluation — 提示评估

v1.0.0

评估并基准测试 AI 提示词的质量、一致性与性能。触发词：prompt evaluation、prompt testing、prompt quality、prompt benchmark、p...

0· 29·0 当前·0 累计

by @sky-lv

数据与API AI模型访问

使用场景：使用Prompt Evaluation — 提示评估进行数据与API使用Prompt Evaluation — 提示评估

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install prompt-evaluation

镜像加速npx clawhub@latest install prompt-evaluation --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Prompt Evaluation — 提示评估安装说明：安装命令：["openclaw skills install prompt-evaluation"]

需要定制？告诉我你的需求 →

技能文档

Prompt Evaluation 评估并基准测试 AI prompt 的质量、一致性与性能，系统打分、对比、优化。概述一套 prompt 评估框架，帮助 agent 从清晰度、具体性、鲁棒性、成本效率、输出一致性等多维度衡量 prompt 质量，对比不同变体，锁定最优版本。

能力

质量打分

node evaluate.js score --prompt "Summarize the article" --dimensions clarity,specificity,robustness node evaluate.js score --prompt-file ./prompts/ --output scores.json 按清晰度(0-10)、具体性(0-10)、鲁棒性(0-10)、成本效率(0-10) 给 prompt 打分。

A/B 对比

node evaluate.js compare --prompt-a "Summarize" --prompt-b "Write a 3-bullet summary" --trials 50 node evaluate.js compare --config ab-test-config.json 对 prompt 变体进行统计 A/B 测试，含显著性分析。

一致性检测

node evaluate.js consistency --prompt "Translate to French" --runs 100 --variance-threshold 0.15 node evaluate.js consistency --temperature 0.7 --top-p 0.9 多次运行测量输出一致性，找出最稳定的 prompt。

回归测试

node evaluate.js regression --baseline v1.0 --current v1.1 --test-suite golden-set.jsonl node evaluate.js regression --fail-on-degradation 5% 用 golden test set 检测 prompt 版本间质量回退。

成本分析

node evaluate.js cost --prompt "Long prompt..." --model gpt-4 --estimate-tokens node evaluate.js cost --compare-prompts --output cost-report.csv 估算不同 prompt 与模型的 token 用量与费用。

配置 { "evaluation": { "dimensions": ["clarity", "specificity", "robustness", "cost"], "scoringModel": "gpt-4", "abTest": { "trials": 50, "significanceLevel": 0.05 }, "consistency": { "runs": 100, "varianceThreshold": 0.15 }, "regression": { "degradationThreshold": "5%", "goldenSet": "./golden-set.jsonl" } } }

用例 Prompt Engineering：系统提升 prompt 质量 Quality Assurance：上线前确保 prompt 达标 Cost Optimization：用更少 token 达成目标 Version Control：追踪各版本 prompt 质量 Agent Tuning：优化 agent system prompt 一致性

运行时依赖

安装命令

本土化适配说明

技能文档

相关技能推荐