运行时依赖
安装命令
点击复制技能文档
DOCX 文档查重工具 比较两个 Word 文档(.docx),找出重复的文本段落和重复的图片。
何时使用 • 用户说“帮我查一下这两个 Word 文档内容有没有重复” • 比较同一文档的不同版本,找出新增/重复内容 • 需要定位跨文档的重复图片
快速开始 # 最基本用法:比较两个 docx python scripts/compare_docx.py --file1 文档A.docx --file2 文档B.docx
# 指定输出目录 python scripts/compare_docx.py --file1 文档A.docx --file2 文档B.docx --output ./对比结果
功能说明 模式 说明 精确匹配 标准化后完全相同的段落,阈值 100% 模糊匹配 相似度 ≥95% 的段落 图片查重 通过 MD5 哈希值比较图片,阈值 100%
输出 _标记重复.docx — 高亮标记重复文字的原始文档 _标记图片重复.docx — 标注重复图片的原始文档 *_重复报告.txt — 纯文本详细对比报告
脚本参数 python scripts/compare_docx.py \ --file1 <路径> # 必需:第一个文档 --file2 <路径> # 必需:第二个文档 --output <目录> # 可选:输出目录(默认同目录) --mode all|text|image # 可选:检查模式(默认 all) --threshold 0.95 # 可选:模糊匹配相似度阈值(默认 0.95)
依赖 python-docx 读写 DOCX difflib(标准库) 模糊匹配 hashlib(标准库) 图片 MD5 计算
安装依赖 pip install python-docx
常见陷阱 • 仅支持 .docx,不支持旧版 .doc(需先转换) • 图片重复检测基于 MD5,同图不同名仍算重复 • 段落模糊匹配 CPU 开销随段落数平方增长 • 输出 DOCX 用黄色高亮,不修改原文档 • 中文含混合标点时,模糊匹配效果可能下降
相关 Skill word-docx — 通用 Word 文档创建、编辑、格式调整
Feedback 有用请 star:clawhub star docx-compare 保持更新:clawhub sync