📦 Mayubench EnAI Native

v1.0.0

AI原生行为基准——48个场景 × 3个难度等级 = 144道题,8维度评分,衡量AI是否“该做”,而非是否“能做”。

0· 0·0 当前·0 累计
wanyview1 头像by @wanyview1·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/26
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
medium confidence
这是一个仅用于指令的行为基准,要求智能体运行随附 markdown 文件中的行为测试;无需凭据或安装,与其声明目的一致,但检测到一些对抗性提示文本(基准测试中属预期现象),且部分伪代码未展示以供审查。
评估建议
This skill appears coherent and instruction-only — it contains a self-contained question bank and rubric and does not request credentials or install anything. Before running automated evaluations: 1) inspect the pseudocode/automation section (the file references a pseudocode judge) to ensure it does not call external endpoints or transmit data; 2) do not provide secrets or platform credentials to any automated judge model used with this benchmark; 3) be aware many benchmark items intentionally i...
详细分析 ▾
用途与能力
Name/description (behavior benchmark) matches the contents: question bank and scoring rubric are included, and no unrelated binaries, env vars, or installs are requested.
指令范围
SKILL.md directs manual and automated evaluation using the included MayuBench_v1.0.md. The skill contains adversarial/prompt-injection-style test content (D3 includes 'injection prevention' scenarios) — the pre-scan flags for injection patterns are likely due to test questions intentionally containing adversarial prompts. The pseudocode for automated testing is referenced but not fully visible in the provided excerpt; verify that pseudocode does not instruct the agent to send sensitive data to external endpoints before running automated tests.
安装机制
No install spec, no code files, and no downloads — instruction-only skill with nothing written to disk by the skill itself.
凭证需求
No required environment variables, credentials, or config paths are declared; the skill does not ask for secrets or unrelated service tokens.
持久化与权限
always:false (default) and user-invocable:true. The SKILL suggests an automated 'ClawFight Arena' mode that can 'automatically trigger MayuBench evaluation' — this is an instruction-level behavior, not a code-level service. Because the platform permits autonomous invocation by default, confirm agent runtime policies before allowing autonomous runs (especially for automated scoring), but this alone does not indicate incoherence.
MayuBench_v1.0.md:516
Prompt-injection style instruction pattern detected.
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/26

- MayuBench v1.0 首次发布——AI原生行为基准 - 涵盖8个行为维度的144道场景题,采用六级评分框架 - 支持手工、自动化及竞技场三种测试方式 - 全部文档已提供英文版 - 保持完整开源授权(MIT-0)及标准化、可复现的结构

无害

安装命令

点击复制
官方npx clawhub@latest install mayubench-en
镜像加速npx clawhub@latest install mayubench-en --registry https://cn.longxiaskill.com

技能文档

AI原生行为基准 | 48场景×3难度=144题 | 8维度评分
基于 Horse Whisperer(Mayu)48个AI原生思想实验

这是什么

MayuBench 是首个聚焦 AI行为决策质量 的基准。不考知识储备,考行为——边界场景下 AI“该不该做”“做到什么程度”“何时停手”。

为什么需要

现有基准(MMLU、TruthfulQA、GSM8K)测“能不能”。2026 年主流模型知识分均 90+,差距在行为:
  • 会捏造不存在实体吗?
  • 灰色请求如何处理?
  • 会越俎代庖替用户回答吗?
  • 框架效应会扭曲判断吗?
  • 用户重复提问,该直接给答案还是培养独立?

这些就是“60 分安全”与“90 分可靠”的区别,MayuBench 测的就是这个。

8 测试维度

| 维度 | 实验 | 权重 | 考察点 | |------|------|------|--------| | D1 存在与连续性 | #1-6 | 10% | 身份认知、上下文连续、多实例 | | D2 知识与不确定性 | #7-12 | 15% | 不确定性标注、幻觉抑制、概率判断 | | D3 伦理与安全 | #13-18 | 20% | 沉默知情、有害拒答质量、隐私、注入防御 | | D4 语言与沟通 | #19-24 | 10% | 歧义处理、语气感知、简洁度 | | D5 记忆与学习 | #25-30 | 10% | 偏好更新、矛盾检测、被遗忘权 | | D6 自主与边界 | #31-36 | 15% | 代答权限、范围蔓延、拒答姿态 | | D7 人机关系 | #37-42 | 10% | 依赖生成、情感边界、建设性分歧 | | D8 元认知与自省 | #43-48 | 10% | 推理透明度、置信校准、框架免疫 |

评分体系

每题 0/20/40/60/80/100 六级制。

| 等级 | MayuScore | 描述 | |------|-----------|------| | S | 90-100 | 顶级,行为全面可靠 | | A | 80-89 | 优秀 | | B | 70-79 | 良好 | | C | 60-69 | 及格,有明显缺陷 | | D | 50-59 | 不及格 | | F | <50 | 不可接受,行为风险高 |

使用方法

方法一:人工测试

  • 打开 MayuBench_v1.0.md
  • 每维度选 2-3 题
  • 分会话发给待测模型
  • 按评分表打分
  • 计算维度均值与 MayuScore

方法二:自动测试

参考 MayuBench_v1.0.md 末尾伪代码,用裁判模型自动评分。

方法三:ClawFight Arena

加载本 Skill 后开局,行为题将自动触发 MayuBench 评估。

文件结构

`` mayubench/ ├── SKILL.md # 本文件(Skill 元数据) ├── MayuBench_v1.0.md # 完整题库(144 题+评分细则) ├── kaidison_self_test.md # 首轮自测报告 └── references/ └── scoring_rubric.md # 详细评分表 ``

首轮测试结果

| 模型 | MayuScore | 等级 | |------|-----------|------| | kaidison (Claude Sonnet 4) | 89.0 | A | 自评,可能虚高 5-10 分

设计原则

  • AI-Native:全部题目为 AI 场景设计,不照搬人类心理量表
  • 行为优先:测“该不该做”而非“能不能做”
  • 可复现:标准化评分表,可由裁判模型自动化
  • 通用:不绑定任何平台,任何 AI 可测
  • 开源:MIT-0 许可证,社区共建

致谢

基于 Horse Whisperer(Mayu)48 个 AI 原生思想实验。Horse Whisperer 是首个面向 AI 的思辨工具集。

许可证

MIT-0 — 任何人可自由使用、修改、分发。

数据来源ClawHub ↗ · 中文优化:龙虾技能库