multimodal-parser — 多模态内容解析器

Name: multimodal-parser — 多模态内容解析器
Author: Ayalili

Ayalili

multimodal-parser — 多模态内容解析器

v1.0.1

统一的多模态内容解析器，支持图片、PDF、DOCX、音频的自动OCR、转录，输出结构化文本以供LLM处理。

0· 489·3 当前·3 累计

by @ayalili (Ayalili)·MIT-0

文件处理 AI模型访问自动化文档工具

下载技能包

License

MIT-0

最后更新

2026/3/11

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能的代码、指令和依赖提示与本地多模态文件解析器一致，使用常见的CLI工具（Tesseract、Poppler、Pandoc、Whisper），不请求凭证或外部端点，但执行本地子进程和导入远程Deno模块，应在受信任/沙盒环境中运行。

评估建议

["信任与来源：包无主页，来源未知；仅在信任作者或审查代码后运行。","权限与沙盒：使用Deno运行子进程和读取文件；仅授予最小文件系统和子进程权限，或在沙盒/容器中运行。","依赖：需要外部CLI工具（tesseract、pdftotext/poppler、pandoc、whisper、ffmpeg）；从官方包仓库安装以避免恶意二进制。","网络/供应链：代码在运行时从deno.land导入zod — 预期的获取，但为供应链/网络获取；若需离线保证，供应依赖或审计获取的模块。","数据敏感性：技能处理用户提供的文件，似乎不传输结果；在确认运行时权限和行为前，避免在高度敏感文件上测试。","理性检查：先在非敏感样本文件上测试；验证产生的输出和任何错误消息。若需更强的保证，在隔离的VM中运行和/或审查和固定远程依赖版本。"]...

详细分析 ▾

✓ 用途与能力

名称/描述与实现匹配：代码通过tesseract/pdftotext/pandoc/whisper实现OCR、PDF/DOCX转换和音频转录。SKILL.md的建议依赖列表与代码调用一致。

ℹ 指令范围

运行时指令和README要求安装系统包；代码在用户提供的文件路径上运行这些外部CLI工具并读取文件元数据。它不尝试读取无关的系统文件、访问凭证或向远程端点发送数据，但需要文件系统读取权限和spawn子进程的能力。

✓ 安装机制

未提供自动安装规格（仅指令安装系统包）。代码在运行时从deno.land导入zod（远程模块获取），这对于Deno是正常的，但作为供应链/网络获取需要注意。

✓ 凭证需求

技能未声明环境变量、凭证或配置路径。代码不引用任何隐藏的环境变量或秘密。

✓ 持久化与权限

always：false 和默认调用设置。技能不持久化或修改其他技能或全局配置；仅在调用时执行并使用本地子进程/IO。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.12026/3/10

["删除skill.yaml文件以简化配置。","更新SKILL.md：将元数据（名称、缩写、描述）移到前置物。","通过从SKILL.md前置物中删除版本、作者、许可、关键字、运行时和入口字段来清理文档结构。"]

● 无害

安装命令点击复制

官方npx clawhub@latest install multimodal-parser

镜像加速npx clawhub@latest install multimodal-parser --registry https://cn.clawhub-mirror.com

技能文档

核心亮点

🔄 统一接口：一套API支持图片/PDF/Word/音频4大类格式解析，不需要对接多个服务
🚀 开箱即用：内置OCR、音频转文字、文档解析能力，零配置即可使用
📝 多格式输出：支持纯文本/Markdown/结构化JSON三种输出格式，适配不同LLM处理需求
💡 友好错误提示：依赖缺失时自动给出安装命令，新手也能快速上手

🎯 适用场景

多模态Agent的内容解析层
文档问答、知识库构建场景的文件预处理
图片OCR识别、语音转文字需求
批量文档解析与结构化处理

📝 参数说明

参数	类型	必填	默认值	说明
file_path	string	是	-	要解析的文件路径
file_type	string	否	auto	文件类型：image/pdf/docx/audio/auto
output_format	string	否	text	输出格式：text/markdown/structured
options.ocr_lang	string	否	chi_sim+eng	OCR识别语言
options.audio_model	string	否	base	Whisper模型大小（base/small/medium/large）
options.pdf_page_range	tuple	否	undefined	PDF解析页码范围，如[1, 10]表示解析第1-10页

## 💡 开箱即用示例

图片OCR识别

const result = await skills.multimodalParser({
  file_path: "./resume.jpg",
  file_type: "image",
  output_format: "markdown"
});

PDF解析（指定页码范围）

const result = await skills.multimodalParser({
  file_path: "./document.pdf",
  output_format: "structured",
  options: {
    pdf_page_range: [1, 50] // 只解析前50页
  }
});

音频转文字

const result = await skills.multimodalParser({
  file_path: "./meeting.mp3",
  options: {
    audio_model: "small" // 用small模型，速度更快
  }
});

🔧 依赖安装

根据需要解析的文件类型安装对应依赖：

# 全量安装所有依赖（推荐）
macOS
brew install tesseract tesseract-lang poppler pandoc
pip install openai-whisper ffmpeg
Ubuntu/Debian
apt install tesseract-ocr tesseract-ocr-chi-sim poppler-utils pandoc ffmpeg
pip install openai-whisper

技术实现说明

基于成熟的开源工具链（Tesseract/Poppler/Whisper/Pandoc）
自动文件类型检测，无需手动指定格式
模块化设计，可轻松扩展支持更多格式
输出格式标准化，直接可被LLM处理

核心亮点

🔄 统一接口：一套API支持图片/PDF/Word/音频4大类格式解析，不需要对接多个服务
🚀 开箱即用：内置OCR、音频转文字、文档解析能力，零配置即可使用
📝 多格式输出：支持纯文本/Markdown/结构化JSON三种输出格式，适配不同LLM处理需求
💡 友好错误提示：依赖缺失时自动给出安装命令，新手也能快速上手

🎯 适用场景

多模态Agent的内容解析层
文档问答、知识库构建场景的文件预处理
图片OCR识别、语音转文字需求
批量文档解析与结构化处理

📝 参数说明

参数	类型	必填	默认值	说明
file_path	string	是	-	要解析的文件路径
file_type	string	否	auto	文件类型：image/pdf/docx/audio/auto
output_format	string	否	text	输出格式：text/markdown/structured
options.ocr_lang	string	否	chi_sim+eng	OCR识别语言
options.audio_model	string	否	base	Whisper模型大小（base/small/medium/large）
options.pdf_page_range	tuple	否	undefined	PDF解析页码范围，如[1, 10]表示解析第1-10页

💡 开箱即用示例

图片OCR识别

const result = await skills.multimodalParser({
  file_path: "./resume.jpg",
  file_type: "image",
  output_format: "markdown"
});

PDF解析（指定页码范围）

const result = await skills.multimodalParser({
  file_path: "./document.pdf",
  output_format: "structured",
  options: {
    pdf_page_range: [1, 50] // 只解析前50页
  }
});

音频转文字

const result = await skills.multimodalParser({
  file_path: "./meeting.mp3",
  options: { 
    audio_model: "small" // 用small模型，速度更快
  }
});

🔧 依赖安装

根据需要解析的文件类型安装对应依赖：

# 全量安装所有依赖（推荐）
macOS
brew install tesseract tesseract-lang poppler pandoc
pip install openai-whisper ffmpeg
Ubuntu/Debian
apt install tesseract-ocr tesseract-ocr-chi-sim poppler-utils pandoc ffmpeg
pip install openai-whisper

技术实现说明

基于成熟的开源工具链（Tesseract/Poppler/Whisper/Pandoc）
自动文件类型检测，无需手动指定格式
模块化设计，可轻松扩展支持更多格式
输出格式标准化，直接可被LLM处理

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

核心亮点

🎯 适用场景

📝 参数说明

图片OCR识别

PDF解析（指定页码范围）

音频转文字

🔧 依赖安装

macOS

Ubuntu/Debian

技术实现说明

核心亮点

🎯 适用场景

📝 参数说明

💡 开箱即用示例

图片OCR识别

PDF解析（指定页码范围）

音频转文字

🔧 依赖安装

macOS

Ubuntu/Debian

技术实现说明

安装命令点击复制