精益上下文
v1.0.0在 AI 代理系统(Claude Code、OpenClaw、GPT Codex、Cursor、Windsurf、Aider 等)中,通过上下文压缩、选择性加载等方式减少 token 使用量。
运行时依赖
安装命令
点击复制本土化适配说明
精益上下文 安装说明: 安装命令:["openclaw skills install lean-context"]
技能文档
Token Optimizer 不牺牲质量,削减 token 用量。以下每种技巧都在 Claude Code、OpenClaw 及各类 agentic 系统生产环境实战验证。
3 大 Token 黑洞(先修这些)
- 工具输出堆积——每次读文件、跑 shell、调 MCP,完整输出永久追加到上下文。10K 行日志文件后续每条消息都背着。
- 上下文复利——模型每轮重读整个对话。第 50 条消息比第 5 条贵,因为它把前 49 条又读一遍。长会话=token 焚化炉。
- 系统提示基线——CLAUDE.md / AGENTS.md 等系统提示每次请求全量加载。5K token 配置 = 每轮固定 5K token,永不停歇。
策略 1:砍系统提示体积 目标:主配置 <500 token。 CLAUDE.md / AGENTS.md 模板(好示例 ≈150 token)
Rules
- TypeScript strict mode
- Test every new function
- Follow existing patterns
Key Files
- API routes: src/api/README.md
- DB schema: docs/schema.md
- Style guide: docs/style-guide.md
策略 2:选择性加载(渐进披露) 绝不一次性全加载。三级体系: Tier 触发时机 token 成本 Metadata 始终 ≈100 词 Core 指令 触发时 <5K 词 Reference 按需 无上限
实现模式
- 文件指针 > 内联内容
- 按域拆分:skill/SKILL.md + references/aws.md、gcp.md、azure.md
- 条件加载:SKILL.md 内给 grep 模式,大文件按需搜。
策略 3:压缩 & 会话卫生 何时用 /compact vs /clear /compact——上下文冗长但话题仍相关:总结后重启。 /clear——彻底换任务:全清,全新会话。 规则
- 新主题 = 新会话,无例外。
- 指具体文件,不说“读整个代码库”。
- 相关任务一次说完:“修 bug+重构+补测试” > 分三次。
- 数据自己看,别让 agent 读全量。
策略 4:精简 Tool 定义 工具定义也算上下文,每请求全量加载。 原则
- 最小可用工具集——人分不清,模型也分不清。
- 能 CLI 就别 MCP:head -20 file.log(10 token) vs MCP JSON(1000+ token)。
- 工具返回摘要,非原始倾倒。
- 拔掉不用的 MCP 服务器——每次请求都有开销。
策略 5:Prompt 压缩技术 Extractive 压缩(低投入高回报) 摘相关句,其余丢弃。适合叙事文档。 Selection-Based 压缩(块级过滤) 整段保留或丢弃,零重写成本。适合事实/引用型内容。 LLMLingua 式 token 级压缩 小模型删低信息 token,最高 20× 压缩,质量损失 <2%。 适用:ICL 示例、检索文档、长指令。 不适用:代码、结构化数据、精确引用。 库:llmlingua(Python)、LLMLingua2
策略 6:去重模式 上下文内
- 系统提示已含指令绝不重复。
- 用“如回合 3 所述”代替重述。
- 少样本去重:3 个多样例 > 10 个相似例。
跨会话
- 共享上下文放文件,不放在对话。
- 用 memory/*.md 实现跨会话记忆,避免重解释。
- 加载前哈希校验,避免重复载入。