百度文档解析pipeline-parser 可以翻译为:百度文档解析管道解析器(pipeline-parser)
v1.0.3调用百度文档解析API解析文档,支持PDF、Word、Excel、PPT、图片等18+格式,能够提取文本、表格、进行版面分析、OCR识别及RAG文档分块。当用户需要解析文档、提取文本/表格、分析文档结构、处理扫描件时使用。常见触发词包括:文档解析、PDF解析、Word解析、表格提取、OCR、文档分析、提取文本、文档结构、扫描识别。
运行时依赖
安装命令
点击复制本土化适配说明
百度文档解析pipeline-parser 可以翻译为:百度文档解析管道解析器(pipeline-parser) 安装说明: 安装命令:["openclaw skills install baidu-doc-pipeline-parser"] 该技能用于百度相关操作,可能需要相应的平台账号或API密钥
技能文档
百度文档解析 Skill 基于百度智能文档分析平台 API,提供文档解析能力。
功能概述 支持对 doc、pdf、图片、xlsx 等 18 种格式文档进行解析 输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息 支持中、英、日、韩、法等 20 余种语言类型 可返回 Markdown 格式内容,将非结构化数据转化为易于处理的结构化数据 识别准确率可达 90% 以上 文档分块(适用于 RAG 场景)
适用场景 当用户需要: 解析 PDF、Word、Excel 等格式文档 从文档中提取文本内容 识别并提取表格数据 分析文档结构(标题层级、章节、版面布局) 对扫描件进行 OCR 文字识别 将文档分块用于 RAG 应用
API 配置 环境变量(必须) 百度智能文档分析平台 领取免费测试资源 使用前请设置以下环境变量: export BAIDU_DOC_AI_API_KEY="your_api_key" export BAIDU_DOC_AI_SECRET_KEY="your_secret_key"
认证方式 通过 API Key 和 Secret Key 获取 access_token,有效期 30 天。
支持格式 版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx 流式文档:doc, docx, txt, xls, xlsx, wps, html, mhtml
支持语言 CHN_ENG(中英文)、JAP(日语)、KOR(韩语)、FRE(法语)、SPA(西班牙语)、POR(葡萄牙语)、GER(德语)、ITA(意大利语)、RUS(俄语)、DAN(丹麦语)、DUT(荷兰语)、MAL(马来语)、SWE(瑞典语)、IND(印尼语)、POL(波兰语)、ROM(罗马尼亚语)、TUR(土耳其语)、GRE(希腊语)、HUN(匈牙利语)、THA(泰语)、VIE(越南语)、ARA(阿拉伯语)、HIN(印地语)
使用方式 python3 scripts/baidu_doc_parser.py --file_data <文件的base64编码> python3 scripts/baidu_doc_parser.py --file_url <文件公网URL>
API 接口 文档解析 API 服务为异步接口,需要先调用提交请求接口获取 task_id,然后调用获取结果接口进行结果轮询。
提交请求接口 HTTP 方法:POST 请求 URL:https://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task?access_token={token} Content-Type:application/x-www-form-urlencoded
获取结果接口 HTTP 方法:POST 请求 URL:https://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task/query?access_token={token} Content-Type:application/x-www-form-urlencoded 请求参数:task_id(必填,提交请求时返回的 task_id)
请求参数 文件参数(必选,二选一) 参数 必选 类型 说明 file_data 和 file_url 二选一 string 文件 Base64 编码数据。版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx;流式文档:doc, docx, txt, xls, xlsx, wps, html, mhtml。文档大小不超过 50M,PDF 最大支持 2000 页。若文档大小超过 50M,须从 file_url 方式上传。优先级:file_data > file_url file_url 和 file_data 二选一 string 文件数据 URL,长度不超过 1024 字节,支持单个 URL 传入。PDF 文档大小不超过 300MB,非 PDF 不超过 50M,PDF 最大支持 2000 页。请注意关闭 URL 防盗链 file_name 是 string 文件名,请保证文件名后缀正确,例如 "1.pdf"
核心功能参数 参数 必选 类型 可选值范围 说明 recognize_formula 否 bool True/False 是否对版式类型文档进行公式识别 analysis_chart 否 bool True/False 是否对统计图表进行解析 angle_adjust 否 bool True/False 是否对图片进行角度矫正 parse_image_layout 否 bool True/False 是否返回文档中的图片位置信息
语言与格式参数 参数 必选 类型 说明 language_type 否 string 识别语种类型,默认为 CHN_ENG(中英文) switch_digital_width 否 string 是否对数字进行全半角转换,默认为 auto。可选:auto(不转换)、half(半角输出)、full(全角输出) html_table_format 否 bool 是否将识别出的表格转换为 HTML 格式返回,default=True
文档分块参数 return_doc_chunks 为字典类型,用于返回文档切分后的片段数据(按语义、字数、标点): 参数 必选 类型 默认值 说明 switch 否 bool False 是否进行文档内容切分 split_type 否 str chunk 切分方式:chunk(按 chunk_size 来切)/ mark(按 separators 来切) separators 否 list ['。',';','!','?',';','!','?'] 切分标点 chunk_size 否 int -1 切分块的大小,-1 表示按照语义自动切分,不限定块的大小
返回结构 提交请求返回 字段 类型 说明 log_id uint64 唯一的 log id,用于问题定位 error_code int 错误码 error_msg string 错误描述信息 result.task_id string 该请求生成的 task_id,后续使用该 task_id 获取审查结果
获取结果返回 字段 类型 说明 log_id uint64 唯一的 log id error_code int 错误码 error_msg string 错误描述信息 result.task_id string 任务 ID result.status string 任务状态:pending(排队中)、processing(运行中)、success(成功)、failed(失败) result.task_error string 解析报错信息,包含任务失败、额度不够 result.markdown_url string 文档解析结果的 Markdown 格式链接,链接有效期 30 天 result.parse_result_url string 文档解析结果的 BOS 链接(JSON),链接有效期 30 天
解析结果 JSON 结构(parse_result_url) 顶层结构 字段 类型 说明 file_name string 文档名称 file_id string 文档 ID pages list 文件单页解析内容 chunks list 文件内容切分结果(return_doc_chunks.switch=True 时有值)
页面对象(pages[]) 字段 类型 说明 page_id string 页码 ID page_num int 页码数 text string 当前页的所有纯文字内容 layouts list 页面内容版式分析的结果 tables list 页面表格解析结果 images list 页面中图片解析结果 meta dict 页元信息
页面元信息(meta) 字段 类型 说明 page_width int 页面宽度 page_height int 页面高度 is_scan bool 是否扫描件 page_angle int 页面倾斜角度 page_type string 页面属性:text(正文)、contents(目录)、appendix(附录)、others(其他) sheet_name string Excel 的 sheet 名
版面元素(layouts[]) 字段 类型 说明 layout_id string layout 元素唯一标志,格式 "xxxxx-layout-{global_layout_index}" text string layout 对应的文本内容。注:当 type 为 table/image 时该字段为空,需根据 type 和 layout_id 分别到 tables/images 字段里找到对应内容 position list 元素在页面中的位置 [x, y, w, h],左上角和宽高 type string 版面元素类型(见下表) sub_type string 版面元素子类型(见下表) parent string 标题层级树中父节点的 layout_id,若为一级标题则 parent 为 "root" children list 标题层级树中子节点的 layout_id 列表
版面类型(type): 类型 说明 para 段落 table 表格 image 文档中的插图 head_tail 页面顶部(页眉/页脚) contents 目录 seal 印章 title 标题 formula 公式
子类型(sub_type): title 类:title_{n}(n 级标题,如 title_2 代表二级标题)、image_title(图标题)、table_title(表标题) image 类:chart(统计图表)、figure(普通插图)、QR_code(二维码)、Bar_code(条形码)
表格对象(tables[]) 字段 类型 说明 layout_id string 与 layouts 中 type 为 table 的元素的 layout ID 对应 markdown string 表格内容的 Markdown 形式 table_title_id list 表格标题对应的 layout_id,默认为 null position list 边框数据 [x, y, w, h