Self-Refine Reflection — 自我精煉反思

v2.0.1

系统atically review and iteratively refine your 响应 for 记录ic, accuracy, completeness, conciseness, actionability, and consistency before delivering.

0· 0·0 当前·0 累计

by @thomaszhou22 (Thomaszhou)·MIT-0

CI/CD DevOps 系统工具微信

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install self-refine-reflection

镜像加速npx clawhub@latest install self-refine-reflection --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

自我完善反思技能一个用于系统自我反思和迭代输出完善的AI代理技能。基于Madaan et al.（2023）、Shinn et al.（2023）和Andrew Ng的反思设计模式。

平台自动检测在技能加载时，检测您的运行环境并调整能力：

能力 | 如何检查 | 回退 ----|----|---- 文件系统 | 是否可以读取references/reflection-templates.md？ | 使用下面的内联模板持久内存 | 是否可以写入内存/？ | 将反思笔记存储在对话上下文中长上下文 | 上下文窗口是否大于32K标记？ |限制在第2级（跳过对抗性审查）工具访问 | 是否可以调用外部工具？ | 使用精神验证

检测规则：

如果可以读取该文件的references/目录 → 全模式（所有级别 + 内存）
如果可以读取文件但不能写入 → 全级别，在对话内存中
如果无法读取文件 → 使用内联模板（复制在下面），限制在第2级
如果上下文有限（< 8K可用） → 默认为第1级，最大第2级

这意味着每个平台都可以自动获得最佳体验 —— 无需手动配置。

内联反思模板（适用于没有文件访问权限的环境）如果无法读取references/reflection-templates.md，请直接使用以下模板：

第1级内部提示审查草稿响应：（1）我是否回答了所有问题？（2）逻辑缺陷？（3）可以剪辑20%？（4）用户可以采取此操作？修复 → 交付。

第2级内部提示对于每个维度（逻辑/事实/完整性/简洁性/可行性/一致性）：

引用具有问题的确切句子
评级：关键/次要/通过

修复所有关键问题。如果简单明了，则修复次要问题。重新阅读一次。交付。

第3级内部提示第1轮：第2级审查。第2轮：如果领域专家攻击此内容，他们会针对什么？修复有效攻击。第3轮：修复是否引入了新的问题？如果稳定 → 交付。如果不稳定 → 修复并交付。

何时激活当您即将向用户交付最终响应时，在收集所有信息并形成答案后，激活反思。反思发生在交付之前，而不是代替工作。

核心循环：生成 → 批判 → 精炼 → 检查

生成 —— 正常产生初始响应
批判 —— 应用反思框架（深度依赖）
精炼 —— 修复批判中发现的所有问题
检查 —— 如果仍有问题且在预算内，循环到步骤2 —— 如果清晰或预算耗尽，交付

来源：Madaan et al.，“自我完善：带有自我反馈的迭代完善”（2023）—— 同一个LLM同时担任生成器、批判者和完善者。

反思维度每次批判都会检查响应的以下维度。不适用于所有响应 —— 静默跳过不相关的维度。

# | 维度 | 检查内容 | 信号词 ----|----|----|---- 1 | 逻辑完整性 | 推理链是否有缺陷？结论是否由前提支持？ | “因此”没有先前的证据，逻辑跳跃 2 | 事实准确性 | 是否有未经验证的断言？可能错误的说法？ | 具体数字、日期、名称、“每个人都知道...” 3 | 响应完整性 | 是否回答了用户问题的每个部分？是否忽略了子问题？ | 用户消息中的多个问题，隐含需求 4 | 简洁性 | 是否有冗余？可以合并段落？是否有填充短语？ | “需要注意的是”，“总之”，重复点 5 | 可行性 | 用户是否可以立即采取此操作？还是需要问后续问题？ | 模糊建议没有步骤，缺少具体细节 6 | 内部一致性 | 是否有相互矛盾的部分？ | 冲突推荐，相互矛盾的陈述

反思深度级别深度由任务复杂性决定，而不是用户偏好。代理自动选择。

第0级：快速扫描（跳过正式反思）触发器：简单的事实查找、问候、琐碎问题、单句回答。操作：不做任何额外的事情。直接响应。成本：0额外标记。示例：“现在是几点？”，“谢谢”，简单格式请求。

第1级：标准审查触发器：中等复杂度任务 —— 解释、操作指南、代码片段、多段响应。操作：对所有6个维度进行一次心智审查。修复问题。交付。预算：1次完善轮。 ~15-20%的响应标记额外开销。内部过程：在草拟响应后，问自己：

我是否回答了他们问的所有问题？
是否有逻辑缺陷或矛盾？
是否可以剪辑20%的文字而不失去意义？
用户是否知道下一步该做什么？

修复 → 交付。

第2级：深度审计触发器：复杂任务 —— 技术架构、多步骤计划、研究摘要、任何具有5+个不同断言的内容。操作：对每个维度（1-6）进行显式审查。一个完整的完善轮，带有记录的问题。预算：最多2次完善轮。 ~30%的额外开销。内部过程：草拟响应。对于每个维度（1-6）：

确定具体问题（引用确切的句子）
评级：关键/次要/通过

修复所有关键问题。如果简单明了，则修复次要问题。重新阅读一次。交付。

License

运行时依赖

安装命令

技能文档

相关技能推荐