首页龙虾技能列表 › Llm Eval Router — 本地LLM模型云评估路由器

🧪 Llm Eval Router — 本地LLM模型云评估路由器

v1.2.2

该技能通过多评判员集成在本地对Ollama模型进行影子测试,相比云端基准模型。统计证明等效后自动提升模型,依据证据降低API成本。

0· 440·2 当前·2 累计
by @nissan (Nissan Dookeran)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/12
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
安全
high confidence
技能所请求的工具和凭证与其声明的目的相符(影子评估本地Ollama模型对云基准),虽然它会向云API发送提示并存储本地评分数据,但请求的内容与目的相称。
评估建议
该技能与其声明的目的相符,但在安装前,请注意:(1) 样本提示和评判调用将发送到Anthropic/OpenAI(以及可能的Gemini),这些提供商可能会记录请求,避免发送敏感数据;(2) 如果启用Gemini或Langfuse,准备提供额外的凭证;(3) 查看和控制本地存储路径(data/scores/*.json);(4) 确认Anthropic/OpenAI账户的计费和速率限制;(5) 在可信机器上运行,因为本地模型推理和评分文件存储在本地。...
详细分析 ▾
用途与能力
名称/描述需要本地Ollama推理加上云端评判/基准线 — 声明的二进制文件(ollama, python3)和环境变量(ANTHROPIC_API_KEY, OPENAI_API_KEY)与该目的相一致。
指令范围
SKILL.md 指示代理执行本地推理、运行验证器、调用Anthropic/OpenAI/Gemini进行采样评判,并将评分运行的JSON写入data/scores/*.json。该范围与描述相匹配,但注意:发送提示到云提供商用于基准真相/评判,并可能向这些提供商暴露任务提示(技能的文本声称“无遥测”,但这不会阻止云提供商记录请求)。
安装机制
无安装规格(仅指令)。从安装角度来说这是最低风险的 — 除了代理运行时在遵循SKILL.md时做的任何事情外,安装步骤不会下载或写入任何内容。
凭证需求
请求Anthropic和OpenAI API密钥对于基准真相和评判调用是合理的。小不一致:SKILL.md引用Gemini作为可选的决策者和Langfuse用于可观察性,但Gemini凭证(或Google身份验证)和Langfuse连接细节未列在requires.env中 — 启用这些功能将需要技能未预先声明的额外凭证。
持久化与权限
always为false,无配置路径请求,该技能也不请求代理全局的永久权限。它将在正常操作的一部分中以data/scores/*.json的形式存储评分数据。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.2.22026/2/26

添加安全注意事项:无遥测,所有API调用使用用户自己的密钥,本地Ollama永远不会向外部发送数据

● 可疑

安装命令 点击复制

官方npx clawhub@latest install llm-eval-router
镜像加速npx clawhub@latest install llm-eval-router --registry https://cn.clawhub-mirror.com

技能文档

(由于原始内容过长,仅提供部分翻译,完整内容请参考原始SKILL.md)

# llm-eval-router 设置一个生产级的影子评估管道,自动提升本地Ollama模型,当它们统计学上证明与云模型质量匹配 — 通过证据而非希望降低推理成本。

核心理念

并行运行每个任务通过您的最佳本地模型(影子)和云基准线(基准真相)。一个轻量级的评判集体评分本地输出。经过200+次运行,如果本地模型达到0.95的平均评分, 将其提升到处理该任务类型的生产环境中。质量下降时自动降级。

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务