Token Reduction Engine — 令牌减少引擎

v1.0.0

通过确定性查询验证和智能缓存，AI 代币成本减少 60-85%。支持独立使用或与 Company Brain Core OS 集成。免费、开源...

0· 0·0 当前·0 累计

by @certainlogicai·MIT

数据与API 数据库 AI模型访问安全加密

下载技能包

License

MIT

License

MIT

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install certainlogic-tre

镜像加速npx clawhub@latest install certainlogic-tre --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

Token Reduction Engine（TRE）公司 Brain Core OS — 免费、局部、确定性知识库，用于您的代理。若需要在优化 token 消耗之前持久化事实，请从这里开始。减少 AI 成本，不减少质量，不减少准确性。v1.0.0 由 CertainLogicAI 构建和使用 — 为我们每次缓存查询节省 79%+ 的成本。测量优于希望。CertainLogic 栈的一部分。本技能可以独立工作，您无需其他东西即可开始减少 token 成本。即使与 Company Brain Core OS（clawhub install company-brain-os）一起使用也更好：Brain 存储验证的事实 — TRE 缓存确定性响应 AgentPathfinder — 审计哪些缓存策略导致良好结果 Smart Router — 将非缓存查询路由到更便宜的模型层。所有四个都是独立的。选择解决您问题的一个，然后在需要时添加其他的。

工作原理 — 三层 TRE 位于您的代理和 LLM 之间。它拦截查询并决定：缓存命中、确定性查找或昂贵的 LLM 调用。用户查询 → TRE 决策层 → 结果（缓存 | 脑 | LLM）

第一层：查询缓存（答案缓存）存储 LLM 响应，因此重复查询可以立即返回 — 零 token。SHA-256 哈希的确切查询作为缓存键 LRU 驱逐 — 保留热答案，丢弃冷答案 TTL 基础过期 — 过时数据自动清除（默认：3600s）幻觉防护 — 对答案（“我想”，“也许”，“不确定”）进行对冲，但不缓存

# 在第一次 LLM 调用后： tre.cache_answer（“我们的退款政策是什么？”，“30 天，无问题。”） # 每次后续调用： answer = tre.get_cached_answer（“我们的退款政策是什么？”） # → 即时。零 token。无 LLM 命中。

第二层：确定性查找对于具有事实答案的问题，完全跳过 LLM。意图分类 — 将查询与已知域（策略、产品、安全等）匹配事实 DB 覆盖 — 带有来源归属的结构化键值对零 LLM 成本 — 预验证的事实直接从 SQLite 提供 “我们提供哪些产品？”→ 意图：产品 → 事实 DB → 即时答案 “大脑如何工作？”→ 意图：策略 → 事实 DB → 即时答案 “谁编写了安全策略？”→ 意图：安全 → 事实 DB → 即时答案

第三层：意图过滤（理智门）防止可能无法产生良好答案的昂贵 LLM 调用。禁止意图 — 阻止“brain.delete_brain”，“brain.purge”，恶意命令必需字段门 — 在查询到达 LLM 之前拒绝格式错误的查询域对齐 — 拒绝超出声明的意图范围的答案（防止产生幻觉的猜测）

主要优点

60-85% 的 token 成本减少（测量）

缓存命中率：在我们的生产工作负载（每天 600+ 个查询）中为 79.3% 确定性路径：<10ms 与 500-2000ms 的 LLM 往返时间相比成本比较：每个缓存答案的成本为 0 美元，而每个 LLM 调用的成本为 0.01-0.15 美元工作负载无 TRE 有 TRE 节省 1,000 个每日查询 10-15 美元/天 1-3 美元/天 85% 支持聊天机器人 300 美元/月 45 美元/月 85% 内部代理 150 美元/月 30 美元/月 80%

缓存事实上的零幻觉

幻觉防护检测对答案的对冲语言：“我想”，“也许”，“可能”，“不确定” 标记的响应将显示但不缓存 — 防止缓存中毒 SHA-256 验证每次写入 — 审计跟踪的篡改检测来源归属 — 每个缓存事实都可以追溯到谁加载了它以及何时

即时响应时间小于 10ms

SQLite 支持的本地缓存 — 无网络往返 LRU 驱逐保持热数据在 RAM 中基准测试：比 LLM 冷调用快 88 倍（736ms → 8ms 在相同的查询中）

代理不会失控

禁止的命令列表 — “brain.delete_brain”，“brain.purge” 在执行之前被阻止意图范围强制执行 — 代理拒绝超出声明的域的查询 SHA-256 写入验证 — 任何篡改的缓存条目在读取时都会被拒绝 AgentPathfinder 集成 — 每个决策的 HMAC 签名审计跟踪

与任何 LLM 栈一起工作

OpenAI（GPT-4o，GPT-4o-mini）Anthropic（Claude 3.5 Sonnet，Claude 3 Opus）本地模型（Ollama，llama.cpp，vLLM）多提供商设置 — TRE 位于所有提供商的前面

# 与任何后端 llm_provider 一起工作： openai # 或 anthropic，local，azure 等 tre： cache_ttl：3600 max_cache_size：10000 hallucination_guard：true

在重启之间保持

缓存在每次写入时自动保存到磁盘在启动时加载持久化缓存 — 无预热期可配置的持久性路径 — 存储在任何地方（本地磁盘，共享卷等）

独立 — 无锁定

在 localhost 上运行 — 无外部 API，无 SaaS 依赖 MIT 许可 — 免费分叉，修改，商业化无遥测 — 您的查询永远不会离开您的机器 50 行集成 — 在几分钟内将其放入现有的代理中

独立使用 clawhub install certainlogic-tre from tre import cache_answer, get_cached_answer, get_metrics # 在获取 LLM 响应后 tre.cache_answer（查询，答案） # 下次 — 零 token cached = tre.get_cached_answer（查询） if cached： answer, token_count = cached print（f“即时！节省 {token_count} token。”） # 检查您的节省 print（tre.get_metrics（））

数据来源：ClawHub ↗ · 中文优化：龙虾技能库