📦 Office Doc Extractor — Office Doc 提取器

v1.0.0

将 Microsoft Office 文档（DOCX、XLSX、PPTX）转换为 Markdown，无需任何外部依赖。适用于用户需要从 Word 文档中提取文本时……

0· 59·0 当前·0 累计

by @michealxie001

文档工具文件处理 CI/CD DevOps 系统工具

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install office-doc-extractor

镜像加速npx clawhub@latest install office-doc-extractor --registry https://cn.longxiaskill.com✓ 镜像可用

需要定制？告诉我你的需求 →

技能文档

Office Document Extractor 零依赖的 Microsoft Office 文档转换器。将 DOCX、XLSX、PPTX 文件中的文本与结构提取为干净 Markdown。

快速开始 # 单文件 python3 scripts/main.py report.docx -o report.md

# 批量转换目录 python3 scripts/main.py ./documents --batch -o ./markdown

支持格式格式扩展名输出 Word .docx 标题、段落 Excel .xlsx 表格（每工作表一个） PowerPoint .pptx 幻灯片按节输出

工作原理 DOCX：直接用 Python 的 zipfile 与 xml.etree 解析 ZIP 内 XML XLSX：使用内置 openpyxl（纯 Python，无 C 扩展） PPTX：直接解析 ZIP 内幻灯片 XML 无外部命令、无网络请求、无需 pip install。

用法单文件 python3 scripts/main.py [-o ] 自动按扩展名识别格式；省略 -o 则输出为 .md。

批量转换 python3 scripts/main.py --batch [-o ] 转换目录下全部 .docx、.xlsx、.pptx，默认保存至 markdown_output/。

资源 scripts/ main.py — 统一 CLI，支持单文件与批量 docx_extractor.py — DOCX → Markdown（仅用标准库） xlsx_extractor.py — XLSX → Markdown 表格（内置 openpyxl） pptx_extractor.py — PPTX → Markdown（仅用标准库）

内置依赖 openpyxl/ — 纯 Python Excel 库（v3.1.5） et_xmlfile/ — openpyxl 的纯 Python 依赖

限制不提取图片或嵌入对象（仅文本）不保留复杂格式（颜色、字体、布局）不支持加密/受密码保护文件无 OCR（扫描文档请用 OpenClaw 原生 pdf 工具）

为何选此 Skill？现有基于 markitdown 的 Skill 需 pip install 或外部 CLI，会触发 ClawHub 安全警告。本 Skill 100% 自包含，安装即可离线使用。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库