Word Reader

Name: Word Reader
Rating: 4

v1.0.0

读取 Word 文档（.docx 和 .doc 格式）并提取文本内容。支持文档解析、表格提取、图片处理等功能。使用当用户需要分析 Word 文档内容、提取文本信息或批量处理文档时。

4· 2.5k·0 当前·0 累计

by @xtfnhcyjpgf·MIT-0

文档工具文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install word-reader

镜像加速npx clawhub@latest install word-reader --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Word 文档读取器

使用 Python 解析 Word 文档，提取文本内容和结构化信息。

支持的功能文档文本提取 - 提取段落、标题、页眉页脚内容表格解析 - 读取表格数据并转换为结构化格式图片处理 - 提取文档中的图片信息元数据获取 - 读取文档属性（作者、标题、创建时间等）批量处理 - 支持处理多个文档用法基本文本提取 python3 {baseDir}/scripts/read_word.py <文件路径>

指定输出格式 # JSON 输出 python3 {baseDir}/scripts/read_word.py <文件路径> --格式化 json

# 纯文本输出 python3 {baseDir}/scripts/read_word.py <文件路径> --格式化 text

# Markdown 格式 python3 {baseDir}/scripts/read_word.py <文件路径> --格式化 markdown

提取特定内容 # 只提取文本 python3 {baseDir}/scripts/read_word.py <文件路径> --提取 text

# 提取表格数据 python3 {baseDir}/scripts/read_word.py <文件路径> --提取 tables

# 获取文档元数据 python3 {baseDir}/scripts/read_word.py <文件路径> --提取 metadata

批量处理 # 处理目录下所有 .docx 文件 python3 {baseDir}/scripts/read_word.py <目录路径> --batch

参数说明参数说明默认值 --格式化输出格式（json/text/markdown） text --提取提取内容类型（text/tables/images/metadata/all） all --batch 批量处理模式 false --输出输出文件路径 stdout --encoding 文本编码（utf-8/gb2312） utf-8 输出格式 JSON 格式 { "metadata": { "title": "文档标题", "author": "作者姓名", "创建d": "2024-01-01T10:00:00", "modified": "2024-01-01T12:00:00" }, "text": "文档全文内容...", "tables": [ [ ["表头1", "表头2"], ["行1列1", "行1列2"], ["行2列1", "行2列2"] ] ], "images": [ { "filename": "image1.png", "description": "图片描述", "size": "1024x768" } ] }

Markdown 格式 # 文档标题

作者：作者姓名 创建时间：2024-01-01 10:00:00

正文内容

这是文档的正文内容...

表格示例

表头1	表头2
行1列1	行1列2
行2列1	行2列2

!图片描述

图片列表

image1.png (1024x768) - 图片描述

错误处理文件不存在：显示错误信息并退出格式不支持：提示支持的文件类型权限问题：提示文件访问权限编码问题：尝试自动检测编码示例场景

查看项目文档

python3 {baseDir}/scripts/read_word.py 项目需求.docx --格式化 markdown

提取会议记录

python3 {baseDir}/scripts/read_word.py 会议记录.docx --提取 text

批量处理文档

python3 {baseDir}/scripts/read_word.py ./文档目录 --batch --格式化 json --输出结果s.json

注意事项支持 .docx 格式（Office 2007+） .doc 格式需要额外依赖（如 antiword）大文档处理可能需要较长时间图片提取仅获取元数据，不包含实际图片数据表格格式可能需要手动调整故障排除常见问题模块NotFoundError: 确保已安装 python-docx 权限Error: 检查文件读取权限 UnicodeDecodeError: 尝试不同的编码格式安装依赖 pip3 安装 python-docx

对于 .doc 格式支持：

# Ubuntu/Debian sudo apt-获取安装 antiword

# macOS brew 安装 antiword

高级功能自定义样式处理

脚本会自动处理以下文档元素：

标题级别（H1-H6）段落样式列表项目页眉页脚文档属性性能优化大文件流式处理内存使用优化进度显示（批量模式）

License

运行时依赖

安装命令

技能文档

正文内容

表格示例

图片列表

相关技能推荐