📦 kb-framework — 本地知识库

v1.1.0

一键初始化混合知识库:自动索引 Markdown/PDF/OCR,集成 SQLite 与 ChromaDB,支持 Obsidian 双向同步,每日自检数据质量,全离线运行。

0· 101·0 当前·0 累计
minenclown 头像by @minenclown (Minenclown)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/16
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该包功能与描述基本吻合(本地 KB + Obsidian 集成),但存在多处不一致与风险行为(文件写入/删除代码、自动更新器、缺失安装元数据、环境变量不匹配),安装前需人工审查。
评估建议
安装前请检查: - 把该包视为含代码包(非纯指令)。审查 Python 文件(尤其 kb/obsidian/writer.py、update.py、kb/indexer.py 及 scripts/*.sh),查找网络请求、遥测或硬编码地址。 - 查看 requirements.txt 确认将安装的 PyPI 包,建议在虚拟环境或容器内安装。 - 备份目标 Obsidian 库,先用副本测试写入操作,防止误删。 - 校验路径限制:确保 writer 只能在配置的库目录内操作,删除应进废纸篓而非直接 rm。 - 检查 update.py/自动更新器,禁用远程代码执行或自动拉取更新。 - 若求低风险,在沙箱(容器/VM)运行,并限制 KB_LIBRARY_PATH 仅含可暴露数据。 鉴于元数据与文件、文档与变更日志、环境变量声明均不一致,且含文件修改+更新器代码,请在人工审查或隔离环境后再使用。...
详细分析 ▾
用途与能力
名称/描述(混合 KB、Markdown/PDF/OCR、SQLite + ChromaDB、Obsidian 集成)与代码一致:indexer、Chroma 集成、混合搜索及 obsidian 模块均存在。但注册元数据标注“仅指令/无安装说明”,而包内含 56 个 Python 文件与 shell 脚本——并非纯指令。同时 SKILL.md 与多份文档引用环境变量(KB_DB_PATH、KB_BASE_PATH 等),但技能元数据却未声明需任何环境变量。
指令范围
运行指令要求把技能复制到代理/工作区,执行 pip install -r requirements.txt 并运行 indexer --init(会执行代码)。SKILL.md 建议编辑 kb/config.py,但变更日志称该文件已移除(前后矛盾)。代码含 Obsidian writer,支持创建/更新/删除/移动操作——因此运行时会写入并删除用户文件。文档声明“完全离线”“无网络操作”,却包含 update.py/自动更新器,且 README 示例含 git clone;需先检查 update.py 及其他脚本。
安装机制
注册表无正式安装说明,但 SKILL.md 指示 pip install -r requirements.txt(包内存在该文件)。pip 将从 PyPI 拉包——属中等风险。指令中无任意下载或冷门 URL,但包内含 shell 脚本(kb.sh、scripts/install.sh),按指引将在系统上放置并执行。
凭证需求
注册元数据未列出所需环境变量,但代码与文档依赖大量变量(KB_DB_PATH、KB_CHROMA_PATH、KB_LIBRARY_PATH、KB_BASE_PATH、KB_HOME)。SECURITY_FUNCTIONS.txt 等文档亦列出 KB_HOME 等。技能还需文件系统访问权限(库与 Obsidian vault),并执行写入/删除——能力虽与 vault 同步 KB 匹配,但属敏感操作,安装前应明确确认。
持久化与权限
技能未标记 always:true,允许模型调用(正常)。但代码含 writer,可在 Obsidian vault 创建/更新/删除/移动 .md 文件;ghost/delete-orphans 命令可删除 DB 记录;文档还提及 update.py/自动更新器。这些功能使技能具备修改用户数据及潜在自动更新代码的能力;加之元数据/指令不一致,应视为特权安装,务必先审查 writer 路径校验与更新器逻辑。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.1.02026/4/13

版本 1.1.0 变更日志: - 重大重构:核心、命令与库代码显式模块化,归入 `kb/base`、`kb/commands` 与 `kb/library/knowledge_base/` - 新增 audit、ghost、search、sync、warmup 命令模块 - 新增分块、FTS5 初始化、重排、停用词、同义词等实现文件 - 引入新文档:FUNCTIONS.md、HOW_TO_KB.md - 移除旧配置与冗余文档/脚本,包括 HOW_TO_DB.md 及旧根级脚本 - 更新 SKILL.md 架构与用法说明,匹配新模块化结构与命令接口

无害

安装命令

点击复制
官方npx clawhub@latest install knowledge-base-framework
镜像加速npx clawhub@latest install knowledge-base-framework --registry https://cn.longxiaskill.com

技能文档

版本: 2.0 分类: Knowledge Base / Search 依赖: Python 3.9+, SQLite, ChromaDB


什么是 KB 框架?

一个完整的知识库,具备:
  • 混合搜索(语义 + 关键词)
  • 自动索引(Markdown、PDF、OCR)
  • SQLite + ChromaDB 集成
  • 每日审计 保障数据质量

安装(1 分钟)

1. 安装 Skill

# 克隆或解压到 OpenClaw 工作区
cp -r kb-framework ~/.openclaw/workspace/
# 或仅复制 skill:
cp kb-framework/SKILL.md ~/.npm-global/lib/node_modules/openclaw/skills/kb/

2. 安装依赖

pip install -r requirements.txt

3. 初始化数据库

python3 ~/.openclaw/workspace/kb-framework/kb/indexer.py --init

配置

设置环境变量 KB_DB_PATH 或编辑 kb/config.py


用法

Python API

# 导入
import sys
sys.path.insert(0, "/path/to/kb-framework")
from kb.indexer import BiblioIndexer

# 索引文件 with BiblioIndexer("/path/to/knowledge.db") as idx: idx.index_file("/path/to/file.md")

# 搜索 from kb.library.knowledge_base.hybrid_search import HybridSearch hs = HybridSearch() results = hs.search("Your search term", limit=10)

CLI(推荐)

内置 kb 命令,一键使用:
# 添加到 .bashrc 实现全局调用:
alias kb="/path/to/kb-framework/kb.sh"

# 命令: kb index /path/to/file.md # 索引文件 kb search "machine learning" # 搜索知识库 kb audit # 运行完整审计 kb ghost # 查找孤立条目 kb warmup # 预加载 ChromaDB 模型

遗留 Python 脚本

# 索引新文件
python3 kb/indexer.py /path/to/file.md

# Ghost 扫描器(查找孤立 DB 条目) python3 kb/scripts/kb_ghost_scanner.py

# 完整审计 python3 kb/scripts/kb_full_audit.py

# ChromaDB 预热(开机时) python3 kb/scripts/kb_warmup.py


架构

kb-framework/
├── SKILL.md                    # 本文件
├── README.md                   # 详细文档
├── kb/
│   ├── indexer.py              # 核心索引器(BiblioIndexer)
│   ├── commands/               # CLI 命令:index、sync、audit、ghost、warmup、search
│   ├── base/                   # 核心:config.py、db.py、logger.py、command.py
│   ├── library/
│   │   └── knowledge_base/
│   │       ├── hybrid_search.py       # 混合搜索(语义 + 关键词)
│   │       ├── chroma_integration.py  # ChromaDB 包装器
│   │       ├── chroma_plugin.py     # ChromaDB 插件(集合管理)
│   │       ├── embedding_pipeline.py # 批量嵌入
│   │       ├── reranker.py           # 搜索结果重排序
│   │       ├── fts5_setup.py         # SQLite FTS5 全文搜索
│   │       ├── chunker.py            # 文本分块
│   │       └── synonyms.py           # 查询扩展
│   └── obsidian/               # Obsidian Vault 集成
└── scripts/
    ├── index_pdfs.py            # PDF + OCR 索引
    ├── kb_ghost_scanner.py      # 遗留 ghost 扫描器
    ├── kb_full_audit.py         # 遗留审计脚本
    └── kb_warmup.py             # 遗留预热脚本

数据库 Schema

files

字段类型说明
idTEXTUUID
file_pathTEXT绝对路径
file_nameTEXT文件名
file_categoryTEXT分类
file_typeTEXTpdf/md/txt
file_sizeINTEGER字节数
line_countINTEGER行数
file_hashTEXTSHA256
last_indexedTIMESTAMP最后索引时间
index_statusTEXTindexed/pending/failed
source_pathTEXT原始路径
indexed_pathTEXTMD 提取路径
is_indexedINTEGER0/1

file_sections

字段类型说明
idTEXTUUID
file_idTEXT外键 → files
section_headerTEXT标题
section_levelINTEGER1-6
content_previewTEXT前 500 字符
content_fullTEXT完整内容
keywordsTEXTJSON 数组
importance_scoreREAL0.0-1.0

keywords

字段类型说明
idINTEGER自增
keywordTEXT词汇
weightREAL词频

故障排查

“ChromaDB 首次启动慢”

python3 kb/scripts/kb_warmup.py

“搜索不到结果”

# 运行审计
python3 kb/scripts/kb_full_audit.py
# Ghost 扫描
python3 kb/scripts/kb_ghost_scanner.py

“OCR 太慢”

# 在 index_pdfs.py 中启用 GPU:
GPU_ENABLED = True  # 默认:False

库结构(重要)

content/ - 原始文件

所有非 Markdown 文件:
library/content/
├── Gesundheit/          # PDF、研究
├── Medizin_Studien/     # 医学文献
├── Bücher/              # 书籍、指南
├── Sonstiges/           # 未分类
└── [category]/          # 可自定义分类

agent/ - Markdown 文件

所有 .md 文件,供 agent 使用:
library/agent/
├── projektplanung/      # 代理计划
├── memory/              # 每日日志
├── Workflow_Referenzen/ # 可复用工作流
├── agents/              # 代理专属文档
└── [category]/          # 可自定义分类

集成新文件

规则: library/[content|agent]/[category]/[topic]/[file] 示例:
# 新的健康 PDF
library/content/Gesundheit/2026/Chelat-Therapie.pdf

# 新的代理计划 library/agent/projektplanung/Treechat_Upgrade.md

# 新的学习笔记 library/agent/learnings/2026-04-12_Git_Workflow.md


许可证

MIT License - 免费使用。

数据来源ClawHub ↗ · 中文优化:龙虾技能库