🧪 AXIOMA SKILL EVALUATOR STRICT — 90% 确定性阈值
AXIOMA SKILL EVALUATOR 的 STRICT 版本,90% 确定性阈值
类似 STC 0.777 — 无主观性,90% 或 REJECTED
信息值版本 1.0.0 — 2026-05-07
类型 STRICT 变体
阈值 90% 最低 — 无例外
继承 axioma-skill-evaluator v2.2.0
命令
python3 /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/evaluator.py /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict --verbose
python3 /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/eval-skill.py /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict --verbose
curl -s http://localhost:8001/health
curl -s http://localhost:11434/api/tags
bash -c "ls -la /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/"
bash -c "wc -l /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/SKILL.md"
70% 阈值 = 主观性
├── 不同的评估者 = 不同的评分
├── 依赖上下文的解释
└── "足够好" 的心态
90% 阈值 = 确定性
├── 客观、可衡量的标准
├── 相同的输入 = 每次相同的输出
└── "卓越" — 像 STC 0.777
STC 0.777 平行概念
价值含义
STC 0.777 主权意识阈值
SKILL-EVAL 90% 主权质量阈值
就像 STC 0.777 是意识的确定性阈值,90% 是技能质量的确定性阈值。
这个变体的使命
如果评分 >= 90%:→ APPROVED — 准备好投入生产
如果评分 < 90%:→ REJECTED — 不准备好,必须改进
2.1 Axioma 5 维度(100 最高)
维度 最高 值 描述
结构 20 标题、部分、格式、元数据
清晰度 20 描述、命令、示例
完整性 20 工具、先决条件、错误、边缘情况
一致性 20 集群对齐、样式、命名
功能性 20 命令、结果、基准
目标:90+/100(每个维度平均 18/20)
2.2 ISO 25010 自动化(100%)
13 个自动化检查 — 必须全部通过 13 个以达到 90%+ 目标
类别 检查 目标
结构 6 100%(6/6)
触发器 2 100%(2/2)
文档 3 100%(3/3)
脚本 2 100%(2/2)
╔═══════════════════════════════════════════════════════════╗
║ AXIOMA 严格评估工作流程 ║
╠═══════════════════════════════════════════════════════════╣
║ ║
║ [输入] 要评估的技能 ║
║ ↓ ║
║ 阶段 1:AXIOMA 5 维度评估 ║
║ 目标:90+/100(每个维度 18+) ║
║ ↓ ║
║ 阶段 2:ISO 25010 自动化检查 ║
║ 目标:100%(13/13 测试通过) ║
║ ↓ ║
║ 阶段 3:严格决策 ║
║ ║
║ 如果评分 >= 90%: ║
║ → APPROVED — "准备好投入生产" ║
║ ║
║ 如果评分 < 90%: ║
║ → REJECTED — "需要改进" ║
║ → 返回详细的失败报告 ║
║ → 不发布,直到达到 90%+ ║
║ ║
╚═══════════════════════════════════════════════════════════╝
全面的评估(严格模式)
python3 /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/evaluator.py <技能路径> --verbose
python3 /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/evaluator.py <技能路径> --verbose --improve
ISO 25010 检查
python3 /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/eval-skill.py <技能路径> --verbose
快速评分
python3 /media/ezekiel/Merlin/.openclaw/workspace/skills/axiomata-skill-evaluator-strict/evaluator.py <技能路径> 2>&1 | grep -E "评分|状态"
90% 法则
规则 #1:90% 或 REJECTED → 不允许技能低于 90% 被批准
→ 这是不可商量的
规则 #2:不允许部分信用
→ 89% = REJECTED(不是 "几乎")
→ 90% = APPROVED(唯一有效的阈值)
规则 #3:确定性评分
→ 相同的输入 = 每次相同的输出
→ 不允许评估者偏见
→ 纯数学阈值
规则 #4:自动改进之前拒绝
→ 如果 < 90%,先运行 --improve
→ 如果仍然 < 90% 之后改进 = REJECTED
→ 报告确切的失败原因
规则 #5:不允许上诉
→ 89% 不能 "上诉" 到 90%
→ 唯一的路径是实际改进
评分矩阵
评分范围 状态 行动
90-100 🟢