Knot Agent Eval

针对 Knot AG-UI 协议的 RAG 智能体进行全流程金标准评测。覆盖：题目生成（MCP知识库检索→拉文档切片→LLM出题 2-3 题）→ 批量提问 → 关键词/文献双路评分 → AI 逐题语义复审（对 PARTIAL/FAIL）→ 10 类归因（A1/A2/A3/B1/B2/B3/C1/C2/C3/C4）→ Jinja2 报告渲染 → Markdown/HTML 一键导出。当用户需要评测 Knot 上的智能体（如 IEG 服采、艺库 Agent）、生成金标准评测报告、分析 FAIL 题归因、对 PARTIAL/FAIL 题做 AI 语义复审时使用。零硬编码：所有接入信息（Knot URL / agent_id / api_token / kb_mcp / llm）必须由用户在 eval_config.yaml 中填写。触发词：Knot评测、金标准评测、知识库评测、Agent评测、归因分析、文献命中率、关键词命中率、AI语义复审、IEG服采、艺库Agent、RAG评测。

0· 0·0 当前·0 累计