📦 Rag Chunking Optimizer
v1.0.0优化 RAG 流程的分块策略——分析文档,推荐分块大小、切分方式、重叠设置与元数据增强,以实现最大化...
运行时依赖
安装命令
点击复制技能文档
RAG Chunking Optimizer 分析文档并为 RAG(检索增强生成)流程推荐最优分块策略。评估分块大小、切分方法、重叠设置、元数据增强与检索质量。用于构建或优化 RAG 应用。
用法 “为我的知识库文档优化分块” “这些技术文档的最佳分块大小是多少?” “分析我当前的分块策略的检索质量” “帮我的 RAG 流程设置语义分块” “对比我的文档类型适用的分块策略”
工作原理
- 文档分析
" "$f"; wc -w < "$f"; done 按类型分类:
结构化技术文档:API、参考、手册 → 基于标题切分
叙述性内容:文章、博客、报告 → 语义/段落切分
代码密集文档:教程、示例 → 代码感知切分
表格数据:规范、配置 → 行/节切分
问答/FAQ:问答对 → 基于对切分
法律/合规:合同、政策 → 基于条款切分
- 分块策略评估
固定大小分块:
优点:简单、可预测、通用
缺点:可能断句、丢失上下文
适用:同质文档、初期原型;常用 512-1024 tokens,50-100 token 重叠 递归字符切分:
切分层级:\n\n → \n → . → → `
优点:尊重自然边界、广泛支持
缺点:仍可能切断语义单元
适用:通用、混合内容
语义分块: 按句嵌入相似度聚类 优点:保留意义、可变大小 缺点:较慢、需嵌入模型、难调试 适用:叙述性、复杂主题
基于标题(markdown/HTML): 按 H1→H2→H3 层级切分 优点:保留结构、自然章节 缺点:块大小不均 适用:结构化文档、wiki
代码感知切分: 用 AST 按函数/类边界切分 优点:完整代码单元、保留导入/上下文 缺点:语言相关、需解析 适用:代码文档、API 参考
滑动窗口+上下文: 重叠窗口含父/兄弟节点上下文 优点:不丢失边界上下文 缺点:存储开销、需去重 适用:密集技术内容
- 分块大小优化
- 重叠分析
- 元数据增强
- 质量指标
- A/B 测试框架
- 块大小:[256, 512, 768, 1024] tokens
- 重叠:[0, 64, 128] tokens
- 方法:[recursive, semantic, heading-based]
- 嵌入模型:[ada-002, voyage-3]
输出