LiteParse Document Parser — 本地文档解析

v1.0.0

在本地一键解析 PDF、Word、PPT、Excel 及图片，支持文本提取、带坐标 JSON、批量目录处理与页面截图，无需联网，仅依赖 LibreOffice 与 ImageMagick。

0· 78·0 当前·0 累计

by @ricanwarfare·MIT-0

文件处理数据处理生产力工具开发工具文档工具

下载技能包

License

MIT-0

最后更新

2026/4/6

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

medium confidence

指令与需求与本地文档解析工具一致，但来源未明（未提供 brew 包及源码），安装前请验证包来源。

评估建议

该技能在本地文档解析层面内部一致，但包来源不清。安装前：1）验证 Homebrew 包来源（哪个 tap 提供 'llamaindex-liteparse'）并查看其主页/源码；2）运行 'lit --version' 确认安装的二进制及路径；3）可先装于 sandbox 或 VM 观察行为；4）确保 LibreOffice 与 ImageMagick 来自官方源；5）检查输出文件与日志，确认无意外网络活动或外发上传。...

详细分析 ▾

✓ 用途与能力

名称、描述与运行时指令均指向本地解析 PDF、Office 文档、表格与图片。所需辅助工具（LibreOffice、ImageMagick）与所述功能（转换、渲染、OCR）相符，未请求无关资源或凭据。

✓ 指令范围

SKILL.md 仅指示运行本地 CLI 命令（lit parse、batch-parse、screenshot）及使用本地配置文件；未要求代理读取无关系统文件、访问密钥或向外传输数据，输出仅写入本地文件。

ℹ 安装机制

注册表未包含安装规范（仅指令）。SKILL.md 提示用 Homebrew 安装（brew install llamaindex-liteparse 及 brew install --cask libreoffice、imagemagick）。Homebrew 常见，但特定包名 'llamaindex-liteparse' 及缺乏源码/主页元数据降低来源可信度，该包可能来自第三方 tap，建议安装前验证包来源。

✓ 凭证需求

技能未声明需环境变量、凭据或配置路径。本地 liteparse.config.json 合理，仅含工具选项（OCR 语言、DPI 等）。

✓ 持久化与权限

技能仅为指令，不请求持久驻留，注册表标志为默认（always:false）。无修改其他技能或系统级代理配置的指令。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/6

- LiteParse 初始发布：本地解析 PDF、DOCX、PPTX、XLSX 及图片。 - 支持文本提取、带边界框 JSON 输出及页面级截图。 - 可批量处理目录并选择性解析页面。 - 无云端或 LLM 依赖；通过 Homebrew 安装即可离线使用。 - 支持主流办公与图片格式，可选依赖 LibreOffice、ImageMagick。 - 包含可配置选项及可复用配置文件支持。

● 无害

安装命令

点击复制

官方npx clawhub@latest install liteparse-docs

镜像加速npx clawhub@latest install liteparse-docs --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

使用 LiteParse 在本地解析非结构化文档（PDF、DOCX、PPTX、XLSX、图像等）：快速、轻量，无需云端依赖或 LLM。

安装

已通过 Homebrew 安装：

brew install llamaindex-liteparse

验证：

lit --version

支持的格式

类别	格式
PDF	`.pdf`
Word	`.doc`, `.docx`, `.docm`, `.odt`, `.rtf`
PowerPoint	`.ppt`, `.pptx`, `.pptm`, `.odp`
电子表格	`.xls`, `.xlsx`, `.xlsm`, `.ods`, `.csv`, `.tsv`
图像	`.jpg`, `.jpeg`, `.png`, `.gif`, `.bmp`, `.tiff`, `.webp`, `.svg`

依赖：

Office 文档 → LibreOffice (brew install --cask libreoffice)
图像 → ImageMagick (brew install imagemagick)

用法

解析单个文件

# 基础文本提取 lit parse document.pdf # 带 bounding boxes 的 JSON 输出 lit parse document.pdf --format json -o output.json # 指定页码范围 lit parse document.pdf --target-pages "1-5,10,15-20" # 禁用 OCR（更快，仅文本 PDF） lit parse document.pdf --no-ocr

# 更高 DPI 以获得更好质量 lit parse document.pdf --dpi 300

批量解析目录

lit batch-parse ./input-directory ./output-directory

# 仅 PDF，递归 lit batch-parse ./input ./output --extension .pdf --recursive

生成页面截图

# 所有页面 lit screenshot document.pdf -o ./screenshots # 指定页面 lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots

# 高 DPI PNG lit screenshot document.pdf --dpi 300 --format png -o ./screenshots

关键选项

选项	说明
`--format json`	带 bounding boxes 的结构化 JSON
`--format text`	纯文本（默认）
`--target-pages "1-5,10"`	解析指定页码
`--dpi 300`	更高渲染质量
`--no-ocr`	禁用 OCR（文本 PDF 更快）
`--ocr-language fra`	设置 OCR 语言
`-o output.json`	保存到文件

配置文件

如需重复使用，创建 liteparse.config.json：

{
  "ocrLanguage": "en",
  "ocrEnabled": true,
  "maxPages": 1000,
  "dpi": 150,
  "outputFormat": "json",
  "preciseBoundingBox": true
}

使用方式：

lit parse document.pdf --config liteparse.config.json

何时使用

PDF 文本提取 — 快速本地解析
文档转换 — Office 文档转文本/JSON
截图生成 — 供 LLM 视觉分析
批量处理 — 一次性处理多个文件
离线/隔离环境 — 无需云端

License

运行时依赖

版本

安装命令

技能文档

安装

支持的格式

用法

解析单个文件

批量解析目录

生成页面截图

关键选项

配置文件

何时使用

相关技能推荐