📦 Local Document AI OpenVINO — 本地文档 AI OpenVINO
v0.1.0在 OpenVINO 上使用 PaddleOCR-VL 或 PaddleOCR-VL-1.5 解析本地 PDF 和文档图像,然后将结构化解析结果路由至下游 document-to-data 或 d...
运行时依赖
安装命令
点击复制技能文档
本地 Document AI with OpenVINO 将此 skill 用作本地文档→动作流水线:
- 将文档解析为规范结构化表示
- 可选继续 to-data 或 to-code
- 输出保存到可预测的 artifact 文件夹,附带可追溯性
仅按需读取 需要 schema 或输出契约时加载: {baseDir}/references/schema.md {baseDir}/references/mode_guide.md {baseDir}/references/output_contracts.md
主入口 仅使用以下入口之一: CLI orchestrator:{baseDir}/scripts/run_skill.py 可选本地演示 UI:{baseDir}/scripts/serve_skill_ui.py
禁止直接调用实现脚本: parse_document.py transform_doc_to_data.py transform_doc_to_code.py
本地就绪 处理真实文档前检查环境: python "{baseDir}/scripts/check_env.py" 需要时安装依赖: python -m pip install -r "{baseDir}/requirements.txt" 快速冒烟测试: python "{baseDir}/scripts/smoke_test.py"
模型资产发现路径: PADDLEOCR_VL_OPENVINO_MODEL_DIR PADDLEOCR_VL_LAYOUT_MODEL_DIR PADDLEOCR_VL_VLM_MODEL_DIR {baseDir}/models/paddleocr-vl-1.5-openvino/ {baseDir}/models/paddleocr-vl-openvino/ 仅在用户明确同意时允许自动下载模型
支持模式 parse 仅返回结构化解析结果 输出:parsed.json、parsed.md、result_report.html、提取的布局/表格/图(如有)
to-data 需要结构化抽取、归一化或文档分类 task_output/ 下典型输出: entities.json、kv_pairs.json、table_index.json、normalized.json、structured_record.json、traceability.json
to-code 从解析结果生成面向实现的代码 支持目标:react、html-css、json-schema、jupyter-notebook task_output/ 下典型输出: component_map.json、field_schema.json、ui_blueprint.json、notes.md、traceability.json 以及目标专属产物:app.jsx、index.html、styles.css、schema.json、notebook.ipynb、notebook_plan.json
流水线规则
- 优先本地执行
- 始终先解析为 parsed.json
- 下游产物由 parsed.json 生成,而非仅 OCR 原文
- 尽可能保留页码、阅读顺序、块类型、源锚点
- 为下游输出写入可追溯性
- 明确标记低置信区域或假设
- 不静默丢弃表格、图形、公式、图表或键值区
- 每次运行保存到独立 artifact 文件夹
输出契约 默认输出目录:./artifacts// 顶级预期文件: effective_config.json、run_report.json、parsed.json、parsed.md、result_report.html、task_output/ to-code 运行额外可能生成:code_preview.html
CLI 示例 Parse python "{baseDir}/scripts/run_skill.py" \ --mode parse \ --file "/absolute/path/to/report.pdf" \ --out "/absolute/path/to/artifacts/report_parse"
To-data python "{baseDir}/scripts/run_skill.py" \ --mode to-data \ --file "/absolute/path/to/invoice.pdf" \ --out "/absolute/path/to/artifacts/invoice_data" \ --extract "tables,entities,kv_pairs"
To-code python "{baseDir}/scripts/run_skill.py" \ --mode to-code \ --file "/absolute/path/to/ui_mockup.png" \ --out "/absolute/path/to/artifacts/ui_code" \ --target "react" \ --title "Generated App"
To-code notebook 目标 python "{baseDir}/scripts/run_skill.py" \ --mode to-code \ --file "/absolute/path/to/architecture_diagram.png" \ --out "/absolute/path/to/artifacts/notebook_code" \ --target "jupyter-notebook" \ --title "OpenVINO Notebook"
斜杠命令示例 /skill local-document-ai-openvino parse file=./docs/report.pdf /skill local-document-ai-openvino to-data file=./docs/invoice.pdf extract=tables,entities,kv_pairs /skill local-document-ai-openvino to-code file=./mockups/architecture.png target=jupyter-notebook
可选本地演示 UI 需要交互演示页时启动: python "{baseDir}/scripts/serve_skill_ui.py" UI 功能:预览本地文件、选择模式与 to-code 目标、运行流水线并查看本地 HTML 报告
失败行为 运行失败时:
- 明确指出失败阶段
- 未生成输出时不声称成功
- 优先写入 error.json 记录失败详情
- 下游请求模糊时建议先 parse
- 提供 stderr 或简洁失败摘要
简短提示 向用户呈现为“本地文档理解工作流,可执行下游动作”,而非简单 OCR 封装。