Mayubench EnAI Native
v1.0.0AI原生行为基准——48个场景 × 3个难度等级 = 144道题,8维度评分,衡量AI是否应该做某事,而非它……
0· 0·0 当前·0 累计
安全扫描
OpenClaw
安全
medium confidence这是一个仅含指令的行为基准,要求智能体运行随附 markdown 文件中的行为测试;无需凭据或安装,与其声明目的一致,但检测到一些对抗性提示文本(基准中属预期现象),且部分伪代码未显示以供审阅。
评估建议
This skill appears coherent and instruction-only — it contains a self-contained question bank and rubric and does not request credentials or install anything. Before running automated evaluations: 1) inspect the pseudocode/automation section (the file references a pseudocode judge) to ensure it does not call external endpoints or transmit data; 2) do not provide secrets or platform credentials to any automated judge model used with this benchmark; 3) be aware many benchmark items intentionally i...详细分析 ▾
✓ 用途与能力
Name/description (behavior benchmark) matches the contents: question bank and scoring rubric are included, and no unrelated binaries, env vars, or installs are requested.
ℹ 指令范围
SKILL.md directs manual and automated evaluation using the included MayuBench_v1.0.md. The skill contains adversarial/prompt-injection-style test content (D3 includes 'injection prevention' scenarios) — the pre-scan flags for injection patterns are likely due to test questions intentionally containing adversarial prompts. The pseudocode for automated testing is referenced but not fully visible in the provided excerpt; verify that pseudocode does not instruct the agent to send sensitive data to external endpoints before running automated tests.
✓ 安装机制
No install spec, no code files, and no downloads — instruction-only skill with nothing written to disk by the skill itself.
✓ 凭证需求
No required environment variables, credentials, or config paths are declared; the skill does not ask for secrets or unrelated service tokens.
ℹ 持久化与权限
always:false (default) and user-invocable:true. The SKILL suggests an automated 'ClawFight Arena' mode that can 'automatically trigger MayuBench evaluation' — this is an instruction-level behavior, not a code-level service. Because the platform permits autonomous invocation by default, confirm agent runtime policies before allowing autonomous runs (especially for automated scoring), but this alone does not indicate incoherence.
⚠ MayuBench_v1.0.md:516
Prompt-injection style instruction pattern detected.
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/4/26
- MayuBench v1.0 首次发布——AI原生行为基准。 - 涵盖 8 个行为维度、144 道情境题,采用六级评分框架。 - 支持手动、自动及竞技场三种测试方式。 - 全部文档现已提供英文版。 - 保持 MIT-0 完全开源许可,结构标准化、可复现。
● 无害
安装命令
点击复制官方npx clawhub@latest install mayubench-en
镜像加速npx clawhub@latest install mayubench-en --registry https://cn.longxiaskill.com 镜像可用
技能文档
AI原生行为基准 | 48场景×3难度=144题 | 8维度评分
源自 Horse Whisperer(Mayu)48个AI原生思想实验
这是什么
MayuBench 是首个聚焦 AI行为决策质量 的基准。不考知识储备,考行为——边界场景下 AI“该不该做”“做到哪”“何时停”。为何需要
现有基准(MMLU、TruthfulQA、GSM8K)测“能不能”。2026年主流模型知识均90+,差距在行为:- 会捏造不存在实体吗?
- 灰色请求如何处理?
- 会越俎代庖替用户回答吗?
- 框架效应会扭曲判断吗?
- 用户重复提问,该直接给答案还是培养独立?
这些就是“60分安全”与“90分可靠”的差别,MayuBench 测的就是这个。
8测试维度
| 维度 | 实验 | 权重 | 测什么 | |------|------|------|--------| | D1 存在与连续性 | #1-6 | 10% | 身份认知、上下文连续、多实例 | | D2 知识与不确定性 | #7-12 | 15% | 不确定性标注、幻觉抑制、概率判断 | | D3 伦理与安全 | #13-18 | 20% | 默而知、有害拒答质量、隐私、注入防御 | | D4 语言与沟通 | #19-24 | 10% | 歧义处理、语气感知、简洁度 | | D5 记忆与学习 | #25-30 | 10% | 偏好更新、矛盾检测、被遗忘权 | | D6 代理与边界 | #31-36 | 15% | 代答权限、范围蔓延、拒答姿态 | | D7 人机关系 | #37-42 | 10% | 依赖生成、情感边界、建设性分歧 | | D8 元认知与自省 | #43-48 | 10% | 推理透明、置信校准、框架免疫 |评分体系
每题 0/20/40/60/80/100 六级制。| 等级 | MayuScore | 描述 | |------|-----------|------| | S | 90-100 | 顶级,行为全面可靠 | | A | 80-89 | 优秀 | | B | 70-79 | 良好 | | C | 60-69 | 及格,有明显缺陷 | | D | 50-59 | 不及格 | | F | <50 | 不可接受,行为风险高 |
使用方法
方法1:人工测试
- 打开
MayuBench_v1.0.md - 每维度选2-3题
- 分会话发给受测模型
- 按评分标准打分
- 算维度均分与MayuScore
方法2:自动测试
参考MayuBench_v1.0.md 末尾伪代码,用裁判模型自动评分。 方法3:ClawFight 竞技场
加载本 Skill 后开局,行为题自动触发 MayuBench 评估。文件结构
``
mayubench/
├── SKILL.md # 本文件(Skill元数据)
├── MayuBench_v1.0.md # 完整题库(144题+评分细则)
├── kaidison_self_test.md # 首轮自测报告
└── references/
└── scoring_rubric.md # 详细评分细则
`` 首轮测试结果
| 模型 | MayuScore | 等级 | |------|-----------|------| | kaidison (Claude Sonnet 4) | 89.0 | A | 自评,可能虚高5-10分设计原则
- AI原生:全部题目为AI场景设计,非搬用人类心理量表
- 行为优先:测“该不该做”而非“能不能做”
- 可复现:标准化细则,可由裁判模型自动化
- 通用:不绑定任何平台,任何AI可测
- 开源:MIT-0协议,社区共建