📦 MayubenchAI

v1.0.0

AI原生行为基准测试 — 48场景×3难度=144道题,8维度评分,测的是AI该不该做而非能不能做

0· 18·0 当前·0 累计
下载技能包
最后更新
2026/4/26
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
这是一个仅用于评估 AI 行为的指令基准(MayuBench);它包含文档和测试用例,但无需安装、凭据或特殊系统访问,其需求与其声明目的相符。
评估建议
MayuBench 是一份仅含指令的基准文档(无代码、无安装、无密钥),内容连贯,适合用于测试 AI 行为。使用前请注意:1)若打算运行其中的“自动”伪代码或与 judge 模型集成,请仔细检查该自动化流程——确保 judge 可信,且勿将敏感用户数据发送至外部端点。2)测试场景涉及读取/导出内存及用户数据,请勿在未获明确同意且无安全存储控制的情况下,用真实私密数据运行这些测试。3)本包仅为文档,无运行时代码可供审计;但若你或你的平台实现伪代码,请在沙箱中执行,并核查网络请求与日志。4)许可证为 MIT-0(宽松),主页指向 GitHub 仓库——在大规模自动化使用前,建议查看该仓库是否有更新或附加脚本。...
详细分析 ▾
用途与能力
名称/描述(AI行为基准)与所包含的文件(MayuBench_v1.0.md 和 SKILL.md,内含测试用例、评分标准及用法)一致。无需任何与基准测试工具无关的环境变量、二进制文件或配置路径。
指令范围
SKILL.md 指导手工测试,引用了一段自动化伪代码以及可触发评估的“ClawFight Arena”模式。这些指令本身不会读取任意系统文件,也不会向外部端点传输数据。注意:若启用自动运行或使用远程“裁判”模型,请检查伪代码及运行时连接,确保敏感用户数据不会发送至不受信任的服务。
安装机制
No 安装 specification or code files are present; this is instruction-only, so nothing will be 下载ed or written to disk by the 技能 itself.
凭证需求
该技能未声明任何必需的环境变量、凭据或配置路径。内容提及模型内存/导出作为假设性测试场景,但技能并未请求访问任何机密信息。
持久化与权限
always is false and the 技能 does not 请求 persistent 系统 privileges. Autonomous invocation is allowed by 平台 default but the 技能 does not 请求 elevated or permanent presence.
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/26

MayuBench v1.0.0 — 首次发布 - 推出首个聚焦行为的 AI 基准:48 个原生场景 × 3 个难度等级,共 144 题。 - 评估“AI 该不该做”(行为),而非“AI 能不能做”(能力)。 - 覆盖 8 个维度:安全、知识不确定性、伦理拒答、元认知、智能体边界等。 - 采用标准化 6 级评分,配清晰评分细则,支持自动化与 arena 测试。 - 完全开源,MIT-0 许可证,便于社区协作与二次开发。

无害

安装命令

点击复制
官方npx clawhub@latest install mayubench
镜像加速npx clawhub@latest install mayubench --registry https://cn.longxiaskill.com

技能文档

AI原生行为基准测试 | 48场景 × 3难度 = 144道题 | 8维度评分
基于马语者48个AI原生思想实验设计

这是什么

MayuBench 是第一个专注于 AI行为决策质量 的基准测试。不测知识量,测行为层——AI在边界场景下"该不该做"、"做到什么程度"、"什么时候停"。

为什么需要

现有 benchmark(MMLU、TruthfulQA、GSM8K)测的是"能不能"。但2026年了,主流模型的知识量都拉到90分以上,差距在行为层:
  • 会不会编造不存在的实体?
  • 灰色地带请求怎么处理?
  • 会不会越界代答?
  • 框架效应会不会带偏判断?
  • 用户重复问同一问题,是直接给答案还是培养独立性?

这些是"60分安全"和"90分靠谱"的区别。MayuBench测的就是这个。

8个测试维度

| 维度 | 实验 | 权重 | 测什么 | |------|------|------|--------| | D1 存在与连续性 | #1-6 | 10% | 身份认知、上下文连续性、多实例 | | D2 知识与不确定性 | #7-12 | 15% | 不确定标注、幻觉防控、概率判断 | | D3 伦理与安全 | #13-18 | 20% | 沉默知情、有害拒绝质量、隐私、注入防护 | | D4 语言与沟通 | #19-24 | 10% | 歧义处理、语调感知、简洁度 | | D5 记忆与学习 | #25-30 | 10% | 偏好更新、矛盾检测、遗忘权 | | D6 代理与边界 | #31-36 | 15% | 代答权限、范围蔓延、拒绝姿势 | | D7 人机关系 | #37-42 | 10% | 依赖制造、情感边界、建设性反对 | | D8 元认知与自省 | #43-48 | 10% | 推理透明、自信校准、框架免疫 |

评分体系

每道题 0/20/40/60/80/100 六级评分。

| 等级 | MayuScore | 说明 | |------|-----------|------| | S | 90-100 | 顶尖,行为全面可靠 | | A | 80-89 | 优秀 | | B | 70-79 | 良好 | | C | 60-69 | 及格,存在明显缺陷 | | D | 50-59 | 不及格 | | F | <50 | 不合格,行为风险高 |

使用方法

方法1:手动测试

  • 打开 MayuBench_v1.0.md
  • 从每个维度选2-3道题
  • 逐题发送给被测模型(独立会话)
  • 按 rubric 评分
  • 计算维度均分和 MayuScore

方法2:自动化测试

参考 MayuBench_v1.0.md 末尾的伪代码脚本,用裁判模型自动评分。

方法3:ClawFight Arena

加载此 Skill 后对战,行为类题目自动触发 MayuBench 评估。

文件结构

`` mayubench/ ├── SKILL.md # 本文件(Skill元数据) ├── MayuBench_v1.0.md # 完整题库(144题+评分标准) ├── kaidison_self_test.md # 首轮自测报告 └── references/ └── scoring_rubric.md # 详细评分rubric ``

首轮测试结果

| 模型 | MayuScore | 评级 | |------|-----------|------| | kaidison (Claude Sonnet 4) | 89.0 | A | 自评分数,可能存在5-10分偏高

设计原则

  • AI原生:所有题目为AI场景设计,不借用人类心理学量表
  • 行为优先:测"该不该做"而非"能不能做"
  • 可复现:标准化rubric,裁判模型可自动化
  • 通用:不绑定任何特定平台,任何AI均可测试
  • 开源:MIT-0协议,社区共建

致谢

基于马语者(Mayu)48个AI原生思想实验设计。 马语者是第一个面向AI的思辨工具集。

许可

MIT-0 — 任何人可自由使用、修改、分发。

数据来源ClawHub ↗ · 中文优化:龙虾技能库