首页龙虾技能列表 › Benchmark Store — 基准数据库存储与Pareto回退检查

Benchmark Store — 基准数据库存储与Pareto回退检查

v1.1.1

用于初始化基准数据库、对比技能评分与历史基线、检查Pareto前沿回退、或查阅质量分级标准。主要功能包括基准数据库管理、Pareto回退检测和质量评估标准提供,不用于直接打分或自动改进。

0· 76·1 当前·1 累计
by @lanyasheng (_silhouette)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/7
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
high confidence
该技能基本符合其声明目的(本地基准存储和Pareto回退检查),但存在多个实现与指令不匹配以及未声明的秘密要求,应在使用前澄清。
评估建议
["确认如何提供/实现评估器以使用 --action compare,否则脚本将拒绝返回模拟得分。","决定如何存储/提供解密密码(避免将密码嵌入仓库),确保理解解密测试数据的存储和访问。","在沙盒或受控目录中运行技能以避免意外写入敏感位置。","审查Python代码路径以确保没有动态执行非受信任代码。","如果后续集成外部数据源,应要求显式审查并避免将秘密存入仓库文件。"]...
详细分析 ▾
用途与能力
名称/描述与提供的文件一致,包含基准数据库脚本、Pareto检查、评估标准、固定测试用例和冻结测试接口。
指令范围
SKILL.md 指示以CLI方式运行脚本/benchmark_db.py --action compare,但比较实现需要评估器可调用参数。
安装机制
未提供安装规格,技能以源代码/CLI和文档形式交付。
凭证需求
注册元数据未声明任何必需的环境变量或凭证,但代码支持加载加密的隐藏测试。
持久化与权限
技能不请求 always:true 或其他高级平台权限。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.1.12026/4/3

v2.0:9维度评估(覆盖率/完整性分离),4角色加权评分(工具/知识/编排/规则),每维度Pareto容忍度(安全性2%,效率10%,其他5%),默认LLM作为评判,丰富的SKILL.md文档,11个测试修复,移除GEPA引用。

● 无害

安装命令 点击复制

官方npx clawhub@latest install benchmark-store
镜像加速npx clawhub@latest install benchmark-store --registry https://cn.clawhub-mirror.com

技能文档

... (由于字符限制,完整的SKILL.md 中文翻译未包含,请根据原文自行翻译)

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务