Token Reduction Engine — 令牌减少引擎
v1.0.0通过确定性查询验证和智能缓存,AI 代币成本减少 60-85%。支持独立使用或与 Company Brain Core OS 集成。免费、开源...
运行时依赖
安装命令
点击复制技能文档
Token Reduction Engine(TRE)公司 Brain Core OS — 免费、局部、确定性知识库,用于您的代理。若需要在优化 token 消耗之前持久化事实,请从这里开始。减少 AI 成本,不减少质量,不减少准确性。v1.0.0 由 CertainLogicAI 构建和使用 — 为我们每次缓存查询节省 79%+ 的成本。测量优于希望。CertainLogic 栈的一部分。本技能可以独立工作,您无需其他东西即可开始减少 token 成本。即使与 Company Brain Core OS(clawhub install company-brain-os)一起使用也更好:Brain 存储验证的事实 — TRE 缓存确定性响应 AgentPathfinder — 审计哪些缓存策略导致良好结果 Smart Router — 将非缓存查询路由到更便宜的模型层。所有四个都是独立的。选择解决您问题的一个,然后在需要时添加其他的。
工作原理 — 三层 TRE 位于您的代理和 LLM 之间。它拦截查询并决定:缓存命中、确定性查找或昂贵的 LLM 调用。用户查询 → TRE 决策层 → 结果(缓存 | 脑 | LLM)
第一层:查询缓存(答案缓存) 存储 LLM 响应,因此重复查询可以立即返回 — 零 token。SHA-256 哈希的确切查询作为缓存键 LRU 驱逐 — 保留热答案,丢弃冷答案 TTL 基础过期 — 过时数据自动清除(默认:3600s)幻觉防护 — 对答案(“我想”,“也许”,“不确定”)进行对冲,但不缓存
# 在第一次 LLM 调用后: tre.cache_answer(“我们的退款政策是什么?”,“30 天,无问题。”) # 每次后续调用: answer = tre.get_cached_answer(“我们的退款政策是什么?”) # → 即时。零 token。无 LLM 命中。
第二层:确定性查找 对于具有事实答案的问题,完全跳过 LLM。意图分类 — 将查询与已知域(策略、产品、安全等)匹配 事实 DB 覆盖 — 带有来源归属的结构化键值对 零 LLM 成本 — 预验证的事实直接从 SQLite 提供 “我们提供哪些产品?”→ 意图:产品 → 事实 DB → 即时答案 “大脑如何工作?”→ 意图:策略 → 事实 DB → 即时答案 “谁编写了安全策略?”→ 意图:安全 → 事实 DB → 即时答案
第三层:意图过滤(理智门) 防止可能无法产生良好答案的昂贵 LLM 调用。禁止意图 — 阻止“brain.delete_brain”,“brain.purge”,恶意命令 必需字段门 — 在查询到达 LLM 之前拒绝格式错误的查询 域对齐 — 拒绝超出声明的意图范围的答案(防止产生幻觉的猜测)
主要优点
- 60-85% 的 token 成本减少(测量)
- 缓存事实上的零幻觉
- 即时响应时间小于 10ms
- 代理不会失控
- 与任何 LLM 栈一起工作
# 与任何后端 llm_provider 一起工作: openai # 或 anthropic,local,azure 等 tre: cache_ttl:3600 max_cache_size:10000 hallucination_guard:true
- 在重启之间保持
- 独立 — 无锁定
独立使用 clawhub install certainlogic-tre from tre import cache_answer, get_cached_answer, get_metrics # 在获取 LLM 响应后 tre.cache_answer(查询,答案) # 下次 — 零 token cached = tre.get_cached_answer(查询) if cached: answer, token_count = cached print(f“即时!节省 {token_count} token。”) # 检查您的节省 print(tre.get_metrics())