📦 Office Doc Extractor — Office Doc 提取器
v1.0.0将 Microsoft Office 文档(DOCX、XLSX、PPTX)转换为 Markdown,无需任何外部依赖。适用于用户需要从 Word 文档中提取文本时……
运行时依赖
安装命令
点击复制技能文档
Office Document Extractor 零依赖的 Microsoft Office 文档转换器。将 DOCX、XLSX、PPTX 文件中的文本与结构提取为干净 Markdown。
快速开始 # 单文件 python3 scripts/main.py report.docx -o report.md
# 批量转换目录 python3 scripts/main.py ./documents --batch -o ./markdown
支持格式 格式 扩展名 输出 Word .docx 标题、段落 Excel .xlsx 表格(每工作表一个) PowerPoint .pptx 幻灯片按节输出
工作原理 DOCX:直接用 Python 的 zipfile 与 xml.etree 解析 ZIP 内 XML XLSX:使用内置 openpyxl(纯 Python,无 C 扩展) PPTX:直接解析 ZIP 内幻灯片 XML 无外部命令、无网络请求、无需 pip install。
用法 单文件 python3 scripts/main.py [-o ] 自动按扩展名识别格式;省略 -o 则输出为 .md。
批量转换 python3 scripts/main.py --batch [-o ] 转换目录下全部 .docx、.xlsx、.pptx,默认保存至 markdown_output/。
资源 scripts/ main.py — 统一 CLI,支持单文件与批量 docx_extractor.py — DOCX → Markdown(仅用标准库) xlsx_extractor.py — XLSX → Markdown 表格(内置 openpyxl) pptx_extractor.py — PPTX → Markdown(仅用标准库)
内置依赖 openpyxl/ — 纯 Python Excel 库(v3.1.5) et_xmlfile/ — openpyxl 的纯 Python 依赖
限制 不提取图片或嵌入对象(仅文本) 不保留复杂格式(颜色、字体、布局) 不支持加密/受密码保护文件 无 OCR(扫描文档请用 OpenClaw 原生 pdf 工具)
为何选此 Skill? 现有基于 markitdown 的 Skill 需 pip install 或外部 CLI,会触发 ClawHub 安全警告。本 Skill 100% 自包含,安装即可离线使用。