研究框架(research-harness)
v1.0.0用于AI原生科学实验的认知学科。设置受控实验时触发,使用LLM代理设计可复制的评估...
运行时依赖
安装命令
点击复制技能文档
research-harness 版本:1.0.0 针对AI本土科学实验的认知学科——护栏,而非配方。 何时使用: 触发此技能,当用户: 设置新的AI本土研究实验仓库 使用LLM代理设计受控实验 需要可复现的评估、统计和错误分析 希望为长期代理协作结构化研究工作空间 希望代理安全的研究治理,防止过度声明 说类似的话: "research harness"、 "实验框架"、 "AI科研"、 "对照实验"、 "评分体系"、 "可复现性"、 "科研workflow"、 "代理协作科研"、 "可控实验"、 "效应量" 核心哲学: 此技能不规定要运行什么实验。它规定了运行实验时的思考方式。 研究代理失败不是因为他们缺乏能力,而是因为他们: 在验证最小循环之前扩大规模 夸大数据证明的内容 在检查执行链之前将意外结果视为方法失败 删除失败的运行以使进度看起来更干净 默默改变基线或评分标准 解药是认知学科——一套由仓库结构强制执行的不可商量的精神习惯,而不是提示提醒。 每个学科的详细推理在 references/scientific-thinking.md 中。 五个认知学科: # 学科 核心问题 深入研究 1 最小闭环 在扩大规模之前 可以最小版本产生可区分的信号? references/experiment-design.md 2 隔离变量和可归因基线 每个组增加的变量是否恰好为一个? references/experiment-design.md 3 双轨验证 两个独立的评分系统是否一致? references/scoring-statistics.md 4 效应量优先于显著性 效应量的大小是什么,而不仅仅是p值? references/scoring-statistics.md 5 流水线优先于解释 执行链是否在质疑假设之前得到验证? references/scientific-thinking.md 学科1-2:实验设计。 3-4:评分和统计。 5:批判性推理。 五项治理规则: # 规则 原则 1 人类拥有方向;代理拥有执行 代理不能改变研究问题、在未经审查的情况下推广证据或做出学术决定 2 证据具有状态;AI输出不是事实 所有AI生成的证据最初都是候选者;只有回到源头的验证才能将其提升为已验证 3 失败的运行是数据,而不是垃圾 在清单中注册每次运行;失败是过程证据,反对幸存者偏见 4 受保护的表面仅通过提案更改 基线、评分标准、原始结果和模式需要版本升级+记录提案 5 每次交接都需要对齐文档 短文档替换长聊天记录,用于代理入职 详细信息在 references/agent-collaboration.md 中。 阶段工作流程: 阶段0 · 搭建 目标:设置三层仓库和根入口文件。 thinking-space/ — 研究方向、声明、决定(人类) execution-layer/ — 简介、日志、结果、草稿(代理) code-workshop/ — 可运行的工件、包 根文件:AGENTS.md(工作空间地图)、PLAN.md(阶段面板)、WORKFLOW.md(程序)、harness/README.md(治理)。 目录骨架和理由:references/repo-architecture.md。 阶段1 · 硬化 目标:在正式执行之前使仓库自我检查。 模块合同 — 每个核心模块都有一个CONTRACT.md(目的、输入、输出、不变量、局部验证器)。 模板在 references/repo-architecture.md 中。 局部验证器 — 每个模块的脚本/validate_.py;脚本/validate_repo_state.py作为聚合器。 门槛规则:0 FAIL之前的任何正式运行。 实验清单 — experiments/results/manifest.csv作为运行级别的来源账本(run_id、波、task_id、组、模型、版本元数据、状态、重试、git提交)。 受保护的表面 — 基线、评分标准、原始结果、评分配置、模式。 需要版本升级+提案来更改。 阶段2 · 设计 目标:设计可归因的受控实验。 进步构建:最小工件 → 模式验证 → 小任务集 → 干跑 → 评分 → 扩展。 设计细节在 references/experiment-design.md 中。 受控组:基线 → 增量处理。 相邻组之间的差异恰好是一个变量。 黄金清单:每个任务都有must_include、forbidden和scoring_notes。 输出合同:代理输出遵循严格的模式(YAML/JSON)。 评分器和分析流水线依赖于此合同。 阶段3 · 执行和分析 目标:运行实验、评分、计算统计、分析错误。 预飞门槛:局部验证器必须通过。 然后: 干跑 — 打印提示,无API调用 烟雾跑 — 1任务 × 2组,验证输出解析 波1 — 小集合 × 所有组,minimum可行数据 评分:跟踪A(基于规则)+跟踪B(语义)交叉验证。 详细信息在 references/scoring-statistics.md 中。 统计:Cohen's d主要,95% CI,配对t,Wilcoxon。 --reproduce 标志用于单击复制。 错误分析:幻觉、输出深度、特异性、任务适当性。 阶段4 · 交接和写作