📦 LiteParse Document Parser — 本地文档解析
v1.0.0在本地一键解析 PDF、Word、PPT、Excel 及图片,支持文本提取、带坐标 JSON、批量目录处理与页面截图,无需联网,仅依赖 LibreOffice 与 ImageMagick。
详细分析 ▾
运行时依赖
版本
- LiteParse 初始发布:本地解析 PDF、DOCX、PPTX、XLSX 及图片。 - 支持文本提取、带边界框 JSON 输出及页面级截图。 - 可批量处理目录并选择性解析页面。 - 无云端或 LLM 依赖;通过 Homebrew 安装即可离线使用。 - 支持主流办公与图片格式,可选依赖 LibreOffice、ImageMagick。 - 包含可配置选项及可复用配置文件支持。
安装命令
点击复制技能文档
使用 LiteParse 在本地解析非结构化文档(PDF、DOCX、PPTX、XLSX、图像等):快速、轻量,无需云端依赖或 LLM。
安装
已通过 Homebrew 安装:
brew install llamaindex-liteparse
验证:
lit --version
支持的格式
| 类别 | 格式 |
|---|---|
.pdf | |
| Word | .doc, .docx, .docm, .odt, .rtf |
| PowerPoint | .ppt, .pptx, .pptm, .odp |
| 电子表格 | .xls, .xlsx, .xlsm, .ods, .csv, .tsv |
| 图像 | .jpg, .jpeg, .png, .gif, .bmp, .tiff, .webp, .svg |
- Office 文档 → LibreOffice (
brew install --cask libreoffice) - 图像 → ImageMagick (
brew install imagemagick)
用法
解析单个文件
# 基础文本提取 lit parse document.pdf# 带 bounding boxes 的 JSON 输出 lit parse document.pdf --format json -o output.json
# 指定页码范围 lit parse document.pdf --target-pages "1-5,10,15-20"
# 禁用 OCR(更快,仅文本 PDF) lit parse document.pdf --no-ocr
# 更高 DPI 以获得更好质量 lit parse document.pdf --dpi 300
批量解析目录
lit batch-parse ./input-directory ./output-directory
# 仅 PDF,递归 lit batch-parse ./input ./output --extension .pdf --recursive
生成页面截图
# 所有页面 lit screenshot document.pdf -o ./screenshots# 指定页面 lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
# 高 DPI PNG lit screenshot document.pdf --dpi 300 --format png -o ./screenshots
关键选项
| 选项 | 说明 |
|---|---|
--format json | 带 bounding boxes 的结构化 JSON |
--format text | 纯文本(默认) |
--target-pages "1-5,10" | 解析指定页码 |
--dpi 300 | 更高渲染质量 |
--no-ocr | 禁用 OCR(文本 PDF 更快) |
--ocr-language fra | 设置 OCR 语言 |
-o output.json | 保存到文件 |
配置文件
如需重复使用,创建 liteparse.config.json:
{
"ocrLanguage": "en",
"ocrEnabled": true,
"maxPages": 1000,
"dpi": 150,
"outputFormat": "json",
"preciseBoundingBox": true
}
使用方式:
lit parse document.pdf --config liteparse.config.json
何时使用
- PDF 文本提取 — 快速本地解析
- 文档转换 — Office 文档转文本/JSON
- 截图生成 — 供 LLM 视觉分析
- 批量处理 — 一次性处理多个文件
- 离线/隔离环境 — 无需云端