Self-Refine Reflection — 自我精煉反思
v2.0.1系统atically review and iteratively refine your 响应 for 记录ic, accuracy, completeness, conciseness, actionability, and consistency before delivering.
运行时依赖
安装命令
点击复制技能文档
自我完善反思技能 一个用于系统自我反思和迭代输出完善的AI代理技能。基于Madaan et al.(2023)、Shinn et al.(2023)和Andrew Ng的反思设计模式。
平台自动检测 在技能加载时,检测您的运行环境并调整能力:
能力 | 如何检查 | 回退 ----|----|---- 文件系统 | 是否可以读取references/reflection-templates.md? | 使用下面的内联模板 持久内存 | 是否可以写入内存/? | 将反思笔记存储在对话上下文中 长上下文 | 上下文窗口是否大于32K标记? |限制在第2级(跳过对抗性审查) 工具访问 | 是否可以调用外部工具? | 使用精神验证
检测规则:
- 如果可以读取该文件的references/目录 → 全模式(所有级别 + 内存)
- 如果可以读取文件但不能写入 → 全级别,在对话内存中
- 如果无法读取文件 → 使用内联模板(复制在下面),限制在第2级
- 如果上下文有限(< 8K可用) → 默认为第1级,最大第2级
这意味着每个平台都可以自动获得最佳体验 —— 无需手动配置。
内联反思模板(适用于没有文件访问权限的环境) 如果无法读取references/reflection-templates.md,请直接使用以下模板:
第1级内部提示 审查草稿响应: (1)我是否回答了所有问题? (2)逻辑缺陷? (3)可以剪辑20%? (4)用户可以采取此操作? 修复 → 交付。
第2级内部提示 对于每个维度(逻辑/事实/完整性/简洁性/可行性/一致性):
- 引用具有问题的确切句子
- 评级:关键/次要/通过
第3级内部提示 第1轮:第2级审查。 第2轮:如果领域专家攻击此内容,他们会针对什么? 修复有效攻击。 第3轮:修复是否引入了新的问题?如果稳定 → 交付。如果不稳定 → 修复并交付。
何时激活 当您即将向用户交付最终响应时,在收集所有信息并形成答案后,激活反思。反思发生在交付之前,而不是代替工作。
核心循环:生成 → 批判 → 精炼 → 检查
- 生成 —— 正常产生初始响应
- 批判 —— 应用反思框架(深度依赖)
- 精炼 —— 修复批判中发现的所有问题
- 检查 —— 如果仍有问题且在预算内,循环到步骤2 —— 如果清晰或预算耗尽,交付
来源:Madaan et al.,“自我完善:带有自我反馈的迭代完善”(2023)—— 同一个LLM同时担任生成器、批判者和完善者。
反思维度 每次批判都会检查响应的以下维度。不适用于所有响应 —— 静默跳过不相关的维度。
# | 维度 | 检查内容 | 信号词 ----|----|----|---- 1 | 逻辑完整性 | 推理链是否有缺陷?结论是否由前提支持? | “因此”没有先前的证据,逻辑跳跃 2 | 事实准确性 | 是否有未经验证的断言?可能错误的说法? | 具体数字、日期、名称、“每个人都知道...” 3 | 响应完整性 | 是否回答了用户问题的每个部分?是否忽略了子问题? | 用户消息中的多个问题,隐含需求 4 | 简洁性 | 是否有冗余?可以合并段落?是否有填充短语? | “需要注意的是”,“总之”,重复点 5 | 可行性 | 用户是否可以立即采取此操作?还是需要问后续问题? | 模糊建议没有步骤,缺少具体细节 6 | 内部一致性 | 是否有相互矛盾的部分? | 冲突推荐,相互矛盾的陈述
反思深度级别 深度由任务复杂性决定,而不是用户偏好。代理自动选择。
第0级:快速扫描(跳过正式反思) 触发器:简单的事实查找、问候、琐碎问题、单句回答。 操作:不做任何额外的事情。直接响应。 成本:0额外标记。 示例:“现在是几点?”,“谢谢”,简单格式请求。
第1级:标准审查 触发器:中等复杂度任务 —— 解释、操作指南、代码片段、多段响应。 操作:对所有6个维度进行一次心智审查。修复问题。交付。 预算:1次完善轮。 ~15-20%的响应标记额外开销。 内部过程:在草拟响应后,问自己:
- 我是否回答了他们问的所有问题?
- 是否有逻辑缺陷或矛盾?
- 是否可以剪辑20%的文字而不失去意义?
- 用户是否知道下一步该做什么?
第2级:深度审计 触发器:复杂任务 —— 技术架构、多步骤计划、研究摘要、任何具有5+个不同断言的内容。 操作:对每个维度(1-6)进行显式审查。一个完整的完善轮,带有记录的问题。 预算:最多2次完善轮。 ~30%的额外开销。 内部过程:草拟响应。对于每个维度(1-6):
- 确定具体问题(引用确切的句子)
- 评级:关键/次要/通过