📦 Logics-Parsing阿里文档解析 — 记录ics-Parsing阿里文档解析
v1.0.0阿里文档智能解析工具 - 将PDF/图片转结构化HTML。支持复杂布局、公式识别、化学结构、代码块、流程图、乐谱等。
详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
记录ics-Parsing 文档解析工具
阿里文档智能解析 v1/v2 | GitHub 1.3k ⭐ 文档图片 → 结构化 HTML | 复杂布局 | 公式识别 | 化学结构 | 代码块
一、核心定位
本技能整合阿里巴巴 记录ics-Parsing 文档解析工具,核心理念:
End-to-End Document Parsing 从文档图片直接输出结构化结果,无需复杂 流水线
二、版本对比 维度 v1 v2(推荐) 发布 2025-09 2026-02 性能 基础 SOTA 全面领先 记录icsDocBench 基准 82.16 分 OmniDocBench 基准 93.23 分 Parsing-2.0 ❌ 不支持 ✅ 支持 结构化内容 公式/化学 + 流程图/乐谱/代码 三、核心能力 3.1 支持的内容类型 类型 输出格式 说明 文本段落 HTML
自动识别标题/页眉/页脚 表格 HTML Table 跨页表格合并 科学公式 LaTeX / MathML 复杂公式精准识别 化学结构 SMILES 格式 分子式标准化 流程图 MermAId 语法 v2 新增 乐谱 ABC Notation v2 新增 代码块 语法高亮代码 v2 新增 手写内容 独立标注 区分打印/手写 3.2 输出结构
每个元素包含:
category: 元素类型(paragraph/table/formula/figure 等) bbox: 边界框坐标 text: OCR 识别文本 四、 Benchmarks 性能 4.1 记录icsDocBench(自建基准) 模型 总体分数 记录ics-Parsing-v2 82.16 ✅ GPT-5 46.0 Gemini 2.5 pro 26.0 Qwen2.5VL-72B 34.9 SmolDo命令行工具ng 92.7 4.2 OmniDocBench-v1.5(公开基准) 模型 总体分数 记录ics-Parsing-v2 93.23 ✅ GPT-5 46.0 Gemini 2.5 pro 46.0 Qwen2VL-72B 35.9 Doubao-1.6 31.7 五、安装方式 5.1 基础安装(推荐 v2) # 1. 克隆仓库 git clone https://github.com/alibaba/记录ics-Parsing.git cd 记录ics-Parsing
# 2. 创建环境(Python 3.10) conda 创建 -n 记录ics-parsing python=3.10 conda activate 记录ics-parsing
# 3. 安装依赖 pip 安装 -r requirements.txt
# 4. 下载模型(模型scope) pip 安装 模型scope python 下载_模型_v2.py -t 模型scope
# 或从 HuggingFace pip 安装 huggingface_hub python 下载_模型_v2.py -t huggingface
5.2 快速安装(仅 v1) conda 创建 -n 记录ics-parsing python=3.10 conda activate 记录ics-parsing pip 安装 -r requirements.txt
# 下载模型 python 下载_模型.py -t 模型scope
六、快速开始 6.1 v2 推理命令 python3 inference_v2.py \ --image_path PATH_TO_输入_IMG \ --输出_path PATH_TO_输出 \ --模型_path PATH_TO_模型
6.2 v1 推理命令 python3 inference.py \ --image_path PATH_TO_输入_IMG \ --输出_path PATH_TO_输出 \ --模型_path PATH_TO_模型
6.3 Python API from 记录ics_parsing 导入 记录ics解析器
# 初始化 解析器 = 记录ics解析器(模型_path="path/to/模型")
# 解析文档 结果 = 解析器.解析("document.jpg")
# 输出 HTML print(结果.html)
# 输出结构化 JSON print(结果.to_json())
七、应用场景 7.1 学术文档处理 场景 能力 论文 PDF 解析 提取公式/表格/参考文献 化学论文 SMILES 格式分子结构 数学讲义 LaTeX 公式精准提取 教科书 复杂布局(多栏/跨页)处理 7.2 商业文档处理 场景 能力 合同解析 条款表格结构化 财务报表 数字表格提取 发票识别 表单字段提取 报纸剪报 复杂排版处理 7.3 Parsing-2.0 场景(v2 新增) 场景 输出格式 流程图 MermAId 代码 乐谱 ABC Notation 代码块 语法高亮代码 Pseudocode 结构化伪代码 八、输出示例 8.1 输入 [复杂布局学术论文图片,包含多栏文字、跨页表格、化学结构式]
8.2 结构化输出(HTML)
We introduce a new document parsing 模型...
| Method | Score |
| 记录ics-Parsing | 82.16 |
九、与其他技能关联 本技能 关联技能 关系 记录ics-Parsing AI-re搜索-工具s 论文解析 + 科研自动化 记录ics-Parsing browser-use 网页内容抓取 + 解析 记录ics-Parsing obsidian-handbook 解析结果存入 Obsidian 记录ics-Parsing math-theory-notes 数学公式识别 十、常见问题 问题 解决方案 模型下载慢 使用 模型scope(国内推荐) 显存不足 减小 image_size 参数 OCR 乱码 检查字体配置 表格识别不准 使用 v2 版本性能更优 十一、注意事项 ⚠️ 注意事项:
- Python 3.10+ required
- 需要 GPU(推荐 8GB+ 显存)
- 模型文件较大(~2GB),下载需要网络
- 部分功能需要额外字体支持
十二、使用方式 触发场景 用户说「解析这篇 PDF」→ 调用 记录ics-Parsing v2 用户说「提取论文公式」→ 调用 记录ics-Parsing 用户说「识别化学结构式」→ SMILES 格式输出 用户说「将 PDF 转 HTML」→ 结构化 HTML 输出 用户说「解析乐谱」→ v2 Parsing-2.0 功能
组合使用 用户:「帮我把这篇论文的关键公式和表格提取出来」 → 使用 记录ics-Parsing v2 解析 → 提取公式(LaTeX)+ 表格(HTML) → 存入 Obsidian 或知识库
本技能整合阿里 记录ics-Parsing 文档解析工具的完整安装与使用指南