📦 LiteParse Document Parser — 本地文档解析

v1.0.0

在本地一键解析 PDF、Word、PPT、Excel 及图片,支持文本提取、带坐标 JSON、批量目录处理与页面截图,无需联网,仅依赖 LibreOffice 与 ImageMagick。

0· 78·0 当前·0 累计
ricanwarfare 头像by @ricanwarfare·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/6
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
medium confidence
指令与需求与本地文档解析工具一致,但来源未明(未提供 brew 包及源码),安装前请验证包来源。
评估建议
该技能在本地文档解析层面内部一致,但包来源不清。安装前:1)验证 Homebrew 包来源(哪个 tap 提供 'llamaindex-liteparse')并查看其主页/源码;2)运行 'lit --version' 确认安装的二进制及路径;3)可先装于 sandbox 或 VM 观察行为;4)确保 LibreOffice 与 ImageMagick 来自官方源;5)检查输出文件与日志,确认无意外网络活动或外发上传。...
详细分析 ▾
用途与能力
名称、描述与运行时指令均指向本地解析 PDF、Office 文档、表格与图片。所需辅助工具(LibreOffice、ImageMagick)与所述功能(转换、渲染、OCR)相符,未请求无关资源或凭据。
指令范围
SKILL.md 仅指示运行本地 CLI 命令(lit parse、batch-parse、screenshot)及使用本地配置文件;未要求代理读取无关系统文件、访问密钥或向外传输数据,输出仅写入本地文件。
安装机制
注册表未包含安装规范(仅指令)。SKILL.md 提示用 Homebrew 安装(brew install llamaindex-liteparse 及 brew install --cask libreoffice、imagemagick)。Homebrew 常见,但特定包名 'llamaindex-liteparse' 及缺乏源码/主页元数据降低来源可信度,该包可能来自第三方 tap,建议安装前验证包来源。
凭证需求
技能未声明需环境变量、凭据或配置路径。本地 liteparse.config.json 合理,仅含工具选项(OCR 语言、DPI 等)。
持久化与权限
技能仅为指令,不请求持久驻留,注册表标志为默认(always:false)。无修改其他技能或系统级代理配置的指令。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/6

- LiteParse 初始发布:本地解析 PDF、DOCX、PPTX、XLSX 及图片。 - 支持文本提取、带边界框 JSON 输出及页面级截图。 - 可批量处理目录并选择性解析页面。 - 无云端或 LLM 依赖;通过 Homebrew 安装即可离线使用。 - 支持主流办公与图片格式,可选依赖 LibreOffice、ImageMagick。 - 包含可配置选项及可复用配置文件支持。

无害

安装命令

点击复制
官方npx clawhub@latest install liteparse-docs
镜像加速npx clawhub@latest install liteparse-docs --registry https://cn.longxiaskill.com

技能文档

使用 LiteParse 在本地解析非结构化文档(PDF、DOCX、PPTX、XLSX、图像等):快速、轻量,无需云端依赖或 LLM。

安装

已通过 Homebrew 安装:

brew install llamaindex-liteparse

验证:

lit --version

支持的格式

类别格式
PDF.pdf
Word.doc, .docx, .docm, .odt, .rtf
PowerPoint.ppt, .pptx, .pptm, .odp
电子表格.xls, .xlsx, .xlsm, .ods, .csv, .tsv
图像.jpg, .jpeg, .png, .gif, .bmp, .tiff, .webp, .svg
依赖:
  • Office 文档 → LibreOffice (brew install --cask libreoffice)
  • 图像 → ImageMagick (brew install imagemagick)

用法

解析单个文件

# 基础文本提取
lit parse document.pdf

# 带 bounding boxes 的 JSON 输出 lit parse document.pdf --format json -o output.json

# 指定页码范围 lit parse document.pdf --target-pages "1-5,10,15-20"

# 禁用 OCR(更快,仅文本 PDF) lit parse document.pdf --no-ocr

# 更高 DPI 以获得更好质量 lit parse document.pdf --dpi 300

批量解析目录

lit batch-parse ./input-directory ./output-directory

# 仅 PDF,递归 lit batch-parse ./input ./output --extension .pdf --recursive

生成页面截图

# 所有页面
lit screenshot document.pdf -o ./screenshots

# 指定页面 lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots

# 高 DPI PNG lit screenshot document.pdf --dpi 300 --format png -o ./screenshots

关键选项

选项说明
--format json带 bounding boxes 的结构化 JSON
--format text纯文本(默认)
--target-pages "1-5,10"解析指定页码
--dpi 300更高渲染质量
--no-ocr禁用 OCR(文本 PDF 更快)
--ocr-language fra设置 OCR 语言
-o output.json保存到文件

配置文件

如需重复使用,创建 liteparse.config.json

{
  "ocrLanguage": "en",
  "ocrEnabled": true,
  "maxPages": 1000,
  "dpi": 150,
  "outputFormat": "json",
  "preciseBoundingBox": true
}

使用方式:

lit parse document.pdf --config liteparse.config.json

何时使用

  • PDF 文本提取 — 快速本地解析
  • 文档转换 — Office 文档转文本/JSON
  • 截图生成 — 供 LLM 视觉分析
  • 批量处理 — 一次性处理多个文件
  • 离线/隔离环境 — 无需云端
数据来源ClawHub ↗ · 中文优化:龙虾技能库