百度文档解析pipeline-parser 可以翻译为：百度文档解析管道解析器（pipeline-parser）

v1.0.3

调用百度文档解析API解析文档，支持PDF、Word、Excel、PPT、图片等18+格式，能够提取文本、表格、进行版面分析、OCR识别及RAG文档分块。当用户需要解析文档、提取文本/表格、分析文档结构、处理扫描件时使用。常见触发词包括：文档解析、PDF解析、Word解析、表格提取、OCR、文档分析、提取文本、文档结构、扫描识别。

0· 0·0 当前·0 累计

by @maglanyulan

搜索引擎 AI服务开发工具数据与API 部署运维

使用场景：百度搜索百度AI接口百度地图

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install baidu-doc-pipeline-parser

镜像加速npx clawhub@latest install baidu-doc-pipeline-parser --registry https://cn.longxiaskill.com镜像同步中

本土化适配说明

百度文档解析pipeline-parser 可以翻译为：百度文档解析管道解析器（pipeline-parser）安装说明：安装命令：["openclaw skills install baidu-doc-pipeline-parser"] 该技能用于百度相关操作，可能需要相应的平台账号或API密钥

需要定制？告诉我你的需求 →

技能文档

百度文档解析 Skill 基于百度智能文档分析平台 API，提供文档解析能力。

功能概述支持对 doc、pdf、图片、xlsx 等 18 种格式文档进行解析输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息支持中、英、日、韩、法等 20 余种语言类型可返回 Markdown 格式内容，将非结构化数据转化为易于处理的结构化数据识别准确率可达 90% 以上文档分块（适用于 RAG 场景）

适用场景当用户需要：解析 PDF、Word、Excel 等格式文档从文档中提取文本内容识别并提取表格数据分析文档结构（标题层级、章节、版面布局）对扫描件进行 OCR 文字识别将文档分块用于 RAG 应用

API 配置环境变量（必须）百度智能文档分析平台领取免费测试资源使用前请设置以下环境变量： export BAIDU_DOC_AI_API_KEY="your_api_key" export BAIDU_DOC_AI_SECRET_KEY="your_secret_key"

认证方式通过 API Key 和 Secret Key 获取 access_token，有效期 30 天。

支持格式版式文档：pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx 流式文档：doc, docx, txt, xls, xlsx, wps, html, mhtml

支持语言 CHN_ENG（中英文）、JAP（日语）、KOR（韩语）、FRE（法语）、SPA（西班牙语）、POR（葡萄牙语）、GER（德语）、ITA（意大利语）、RUS（俄语）、DAN（丹麦语）、DUT（荷兰语）、MAL（马来语）、SWE（瑞典语）、IND（印尼语）、POL（波兰语）、ROM（罗马尼亚语）、TUR（土耳其语）、GRE（希腊语）、HUN（匈牙利语）、THA（泰语）、VIE（越南语）、ARA（阿拉伯语）、HIN（印地语）

使用方式 python3 scripts/baidu_doc_parser.py --file_data <文件的base64编码> python3 scripts/baidu_doc_parser.py --file_url <文件公网URL>

API 接口文档解析 API 服务为异步接口，需要先调用提交请求接口获取 task_id，然后调用获取结果接口进行结果轮询。

提交请求接口 HTTP 方法：POST 请求 URL：https://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task?access_token={token} Content-Type：application/x-www-form-urlencoded

获取结果接口 HTTP 方法：POST 请求 URL：https://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task/query?access_token={token} Content-Type：application/x-www-form-urlencoded 请求参数：task_id（必填，提交请求时返回的 task_id）

请求参数文件参数（必选，二选一）参数必选类型说明 file_data 和 file_url 二选一 string 文件 Base64 编码数据。版式文档：pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx；流式文档：doc, docx, txt, xls, xlsx, wps, html, mhtml。文档大小不超过 50M，PDF 最大支持 2000 页。若文档大小超过 50M，须从 file_url 方式上传。优先级：file_data > file_url file_url 和 file_data 二选一 string 文件数据 URL，长度不超过 1024 字节，支持单个 URL 传入。PDF 文档大小不超过 300MB，非 PDF 不超过 50M，PDF 最大支持 2000 页。请注意关闭 URL 防盗链 file_name 是 string 文件名，请保证文件名后缀正确，例如 "1.pdf"

核心功能参数参数必选类型可选值范围说明 recognize_formula 否 bool True/False 是否对版式类型文档进行公式识别 analysis_chart 否 bool True/False 是否对统计图表进行解析 angle_adjust 否 bool True/False 是否对图片进行角度矫正 parse_image_layout 否 bool True/False 是否返回文档中的图片位置信息

语言与格式参数参数必选类型说明 language_type 否 string 识别语种类型，默认为 CHN_ENG（中英文） switch_digital_width 否 string 是否对数字进行全半角转换，默认为 auto。可选：auto（不转换）、half（半角输出）、full（全角输出） html_table_format 否 bool 是否将识别出的表格转换为 HTML 格式返回，default=True

文档分块参数 return_doc_chunks 为字典类型，用于返回文档切分后的片段数据（按语义、字数、标点）：参数必选类型默认值说明 switch 否 bool False 是否进行文档内容切分 split_type 否 str chunk 切分方式：chunk（按 chunk_size 来切）/ mark（按 separators 来切） separators 否 list ['。','；','！','？',';','!','?'] 切分标点 chunk_size 否 int -1 切分块的大小，-1 表示按照语义自动切分，不限定块的大小

返回结构提交请求返回字段类型说明 log_id uint64 唯一的 log id，用于问题定位 error_code int 错误码 error_msg string 错误描述信息 result.task_id string 该请求生成的 task_id，后续使用该 task_id 获取审查结果

获取结果返回字段类型说明 log_id uint64 唯一的 log id error_code int 错误码 error_msg string 错误描述信息 result.task_id string 任务 ID result.status string 任务状态：pending（排队中）、processing（运行中）、success（成功）、failed（失败） result.task_error string 解析报错信息，包含任务失败、额度不够 result.markdown_url string 文档解析结果的 Markdown 格式链接，链接有效期 30 天 result.parse_result_url string 文档解析结果的 BOS 链接（JSON），链接有效期 30 天

解析结果 JSON 结构（parse_result_url）顶层结构字段类型说明 file_name string 文档名称 file_id string 文档 ID pages list 文件单页解析内容 chunks list 文件内容切分结果（return_doc_chunks.switch=True 时有值）

页面对象（pages[]）字段类型说明 page_id string 页码 ID page_num int 页码数 text string 当前页的所有纯文字内容 layouts list 页面内容版式分析的结果 tables list 页面表格解析结果 images list 页面中图片解析结果 meta dict 页元信息

页面元信息（meta）字段类型说明 page_width int 页面宽度 page_height int 页面高度 is_scan bool 是否扫描件 page_angle int 页面倾斜角度 page_type string 页面属性：text（正文）、contents（目录）、appendix（附录）、others（其他） sheet_name string Excel 的 sheet 名

版面元素（layouts[]）字段类型说明 layout_id string layout 元素唯一标志，格式 "xxxxx-layout-{global_layout_index}" text string layout 对应的文本内容。注：当 type 为 table/image 时该字段为空，需根据 type 和 layout_id 分别到 tables/images 字段里找到对应内容 position list 元素在页面中的位置 [x, y, w, h]，左上角和宽高 type string 版面元素类型（见下表） sub_type string 版面元素子类型（见下表） parent string 标题层级树中父节点的 layout_id，若为一级标题则 parent 为 "root" children list 标题层级树中子节点的 layout_id 列表

版面类型（type）：类型说明 para 段落 table 表格 image 文档中的插图 head_tail 页面顶部（页眉/页脚） contents 目录 seal 印章 title 标题 formula 公式

子类型（sub_type）： title 类：title_{n}（n 级标题，如 title_2 代表二级标题）、image_title（图标题）、table_title（表标题） image 类：chart（统计图表）、figure（普通插图）、QR_code（二维码）、Bar_code（条形码）

表格对象（tables[]）字段类型说明 layout_id string 与 layouts 中 type 为 table 的元素的 layout ID 对应 markdown string 表格内容的 Markdown 形式 table_title_id list 表格标题对应的 layout_id，默认为 null position list 边框数据 [x, y, w, h

数据来源：ClawHub ↗ · 中文优化：龙虾技能库