Knot Agent Eval
v4针对 Knot AG-UI 协议的 RAG 智能体进行全流程金标准评测。覆盖: 题目生成(MCP知识库检索→拉文档切片→LLM出题 2-3 题)→ 批量提问 → 关键词/文献双路评分 → AI 逐题语义复审(对 PARTIAL/FAIL)→ 10 类归因(A1/A2/A3/B1/B2/B3/C1/C2/C3/C4)→ Jinja2 报告渲染 → Markdown/HTML 一键导出。 当用户需要评测 Knot 上的智能体(如 IEG 服采、艺库 Agent)、生成金标准评测报告、 分析 FAIL 题归因、对 PARTIAL/FAIL 题做 AI 语义复审时使用。 零硬编码:所有接入信息(Knot URL / agent_id / api_token / kb_mcp / llm) 必须由用户在 eval_config.yaml 中填写。 触发词:Knot评测、金标准评测、知识库评测、Agent评测、归因分析、文献命中率、 关键词命中率、AI语义复审、IEG服采、艺库Agent、RAG评测。
0· 0·0 当前·0 累计
下载技能包
License
MIT-0
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install knot-agent-eval
镜像加速npx clawhub@latest install knot-agent-eval --registry https://cn.longxiaskill.com 镜像可用