研究框架（research-harness）

v1.0.0

用于AI原生科学实验的认知学科。设置受控实验时触发，使用LLM代理设计可复制的评估...

0· 0·0 当前·0 累计

by @zhelunsun

网络工具浏览器自动化 AI模型访问 CI/CD DevOps

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install agent-research-harness

镜像加速npx clawhub@latest install agent-research-harness --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

research-harness 版本：1.0.0 针对AI本土科学实验的认知学科——护栏，而非配方。何时使用：触发此技能，当用户：设置新的AI本土研究实验仓库使用LLM代理设计受控实验需要可复现的评估、统计和错误分析希望为长期代理协作结构化研究工作空间希望代理安全的研究治理，防止过度声明说类似的话： "research harness"、 "实验框架"、 "AI科研"、 "对照实验"、 "评分体系"、 "可复现性"、 "科研workflow"、 "代理协作科研"、 "可控实验"、 "效应量" 核心哲学：此技能不规定要运行什么实验。它规定了运行实验时的思考方式。研究代理失败不是因为他们缺乏能力，而是因为他们：在验证最小循环之前扩大规模夸大数据证明的内容在检查执行链之前将意外结果视为方法失败删除失败的运行以使进度看起来更干净默默改变基线或评分标准解药是认知学科——一套由仓库结构强制执行的不可商量的精神习惯，而不是提示提醒。每个学科的详细推理在 references/scientific-thinking.md 中。五个认知学科： # 学科核心问题深入研究 1 最小闭环在扩大规模之前可以最小版本产生可区分的信号？ references/experiment-design.md 2 隔离变量和可归因基线每个组增加的变量是否恰好为一个？ references/experiment-design.md 3 双轨验证两个独立的评分系统是否一致？ references/scoring-statistics.md 4 效应量优先于显著性效应量的大小是什么，而不仅仅是p值？ references/scoring-statistics.md 5 流水线优先于解释执行链是否在质疑假设之前得到验证？ references/scientific-thinking.md 学科1-2：实验设计。 3-4：评分和统计。 5：批判性推理。五项治理规则： # 规则原则 1 人类拥有方向；代理拥有执行代理不能改变研究问题、在未经审查的情况下推广证据或做出学术决定 2 证据具有状态；AI输出不是事实所有AI生成的证据最初都是候选者；只有回到源头的验证才能将其提升为已验证 3 失败的运行是数据，而不是垃圾在清单中注册每次运行；失败是过程证据，反对幸存者偏见 4 受保护的表面仅通过提案更改基线、评分标准、原始结果和模式需要版本升级+记录提案 5 每次交接都需要对齐文档短文档替换长聊天记录，用于代理入职详细信息在 references/agent-collaboration.md 中。阶段工作流程：阶段0 · 搭建目标：设置三层仓库和根入口文件。 thinking-space/ — 研究方向、声明、决定（人类） execution-layer/ — 简介、日志、结果、草稿（代理） code-workshop/ — 可运行的工件、包根文件：AGENTS.md（工作空间地图）、PLAN.md（阶段面板）、WORKFLOW.md（程序）、harness/README.md（治理）。目录骨架和理由：references/repo-architecture.md。阶段1 · 硬化目标：在正式执行之前使仓库自我检查。模块合同 — 每个核心模块都有一个CONTRACT.md（目的、输入、输出、不变量、局部验证器）。模板在 references/repo-architecture.md 中。局部验证器 — 每个模块的脚本/validate_.py；脚本/validate_repo_state.py作为聚合器。门槛规则：0 FAIL之前的任何正式运行。实验清单 — experiments/results/manifest.csv作为运行级别的来源账本（run_id、波、task_id、组、模型、版本元数据、状态、重试、git提交）。受保护的表面 — 基线、评分标准、原始结果、评分配置、模式。需要版本升级+提案来更改。阶段2 · 设计目标：设计可归因的受控实验。进步构建：最小工件 → 模式验证 → 小任务集 → 干跑 → 评分 → 扩展。设计细节在 references/experiment-design.md 中。受控组：基线 → 增量处理。相邻组之间的差异恰好是一个变量。黄金清单：每个任务都有must_include、forbidden和scoring_notes。输出合同：代理输出遵循严格的模式（YAML/JSON）。评分器和分析流水线依赖于此合同。阶段3 · 执行和分析目标：运行实验、评分、计算统计、分析错误。预飞门槛：局部验证器必须通过。然后：干跑 — 打印提示，无API调用烟雾跑 — 1任务 × 2组，验证输出解析波1 — 小集合 × 所有组，minimum可行数据评分：跟踪A（基于规则）+跟踪B（语义）交叉验证。详细信息在 references/scoring-statistics.md 中。统计：Cohen's d主要，95% CI，配对t，Wilcoxon。 --reproduce 标志用于单击复制。错误分析：幻觉、输出深度、特异性、任务适当性。阶段4 · 交接和写作

数据来源：ClawHub ↗ · 中文优化：龙虾技能库