📦 Data Pipelines — 数据管道设计
v1.0.0端到端数据管道工作流指南,涵盖采集、编排、幂等、数据质量、SLA、可观测与血缘,适用于批流一体场景。
详细分析 ▾
运行时依赖
版本
- Initial release of the "data-pipelines" skill. - Provides a comprehensive workflow covering ingestion, orchestration, idempotency, data quality, SLAs, observability, and lineage. - Includes six structured stages: requirements & SLAs, source contracts, transforms & idempotency, orchestration & dependencies, quality & monitoring, and lineage & operations. - Offers trigger conditions for when the workflow is relevant and a detailed checklist for final review. - Contains practical tips and guidance for both batch and streaming pipelines, with emphasis on reliability and clarity.
安装命令
点击复制技能文档
# 数据管道 管道会在静默 schema drift、部分写入、职责不清时失败。设计时保证至少一次交付、幂等 sink、可观测 stage。 ## 何时使用该流程 触发条件: - 批处理或流式摄取(Kafka、Fivetran、Airflow、Dagster、Spark 等) - 迟到数据、回填或 schema 变更导致作业失败 - 新鲜度或行数 SLA 违约 初次提供: 使用六个阶段:(1)需求与 SLA,(2)源端契约,(3)转换与幂等,(4)编排与依赖,(5)质量与监控,(6)血缘与运维)。确认批处理 vs 流式以及云栈。 --- ## 阶段 1:需求与 SLA 目标: 新鲜度(延迟)、完整性预期、成本上限、失败容忍(隔离 vs 停线)。 退出条件: SLA 表:pipeline → 指标 → 阈值。 --- ## 阶段 2:源端契约 目标: schema 版本管理;CDC vs 快照拉取;API 限流。 ### 实践 - 原始落地区不可变;下游为 curated 层 --- ## 阶段 3:转换与幂等 目标: 确定性转换;upsert 键;支持回滚的分区策略。 ### 实践 - 为增量加载设置 watermark 进度 --- ## 阶段 4:编排与依赖 目标: 清晰的 DAG;重试策略;回填不重复计数;SLA 违约告警。 --- ## 阶段 5:质量与监控 目标: 数据质量检查(null 激增、行边界、参照完整性);延迟、耗时、错误率指标。 --- ## 阶段 6:血缘与运维 目标: 有价值的列级血缘;值班手册;每条 pipeline 明确归属。 --- ## 最终审查清单 - [ ] SLA 与失败策略明确 - [ ] 源端契约与 schema 演进路径 - [ ] 幂等写入与 checkpoint - [ ] 带重试与安全回填的编排 - [ ] 数据质量检查与告警 - [ ] 血缘与归属已文档化 ## 有效指导小贴士 - 大规模 shuffle 时,将计算与存储成本 awareness 分离。 - 与 etl-design 搭配用于批处理模式,与 message-queues 搭配用于流式交接。 ## 处理偏离 - 单脚本 pipeline:仍需记录输入、输出与调度。