📦 Data Pipelines — 数据管道设计

v1.0.0

端到端数据管道工作流指南，涵盖采集、编排、幂等、数据质量、SLA、可观测与血缘，适用于批流一体场景。

0· 106·0 当前·0 累计

by @mike47512

数据分析工作流数据处理云服务生产力工具

下载技能包

最后更新

2026/3/27

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

This is a purely instructional, high-level data-pipeline design workflow — it does not request credentials, install software, or perform actions outside its stated purpose.

评估建议

This skill is high-level documentation for designing and operating data pipelines and appears internally consistent. Because it's instruction-only and requests no credentials, it carries low direct risk. Before you use it in an agent that can act autonomously, consider: (1) do not provision cloud/database credentials to the agent unless you want it to run pipeline actions; (2) if you combine this with other skills (etl connectors, cloud deployers), review those skills for credential requests and...

详细分析 ▾

✓ 用途与能力

名称/描述（deep data pipeline workflow）与SKILL.md内容一致：提供采集、编排、幂等、质量、SLA、血缘的分阶段指导，无无关需求（无环境变量、二进制或配置路径）。

✓ 指令范围

SKILL.md仅包含管道设计与运维指导（六阶段工作流、检查清单、提示）。未指示代理读取本地文件、访问凭据、调用外部端点或执行系统操作，仅提供建议。

✓ 安装机制

无安装规范与代码文件，纯指导内容，降低写入/执行风险；技能本身不会下载或安装任何内容。

✓ 凭证需求

技能未声明所需环境变量、凭据或配置路径，其指导为概念性，不索取密钥或无关凭据。

✓ 持久化与权限

技能由用户调用，非常驻启用；未请求提升持久化或修改其他技能。平台默认允许自主调用，但此处未结合其他高风险权限。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/27

- Initial release of the "data-pipelines" skill. - Provides a comprehensive workflow covering ingestion, orchestration, idempotency, data quality, SLAs, observability, and lineage. - Includes six structured stages: requirements & SLAs, source contracts, transforms & idempotency, orchestration & dependencies, quality & monitoring, and lineage & operations. - Offers trigger conditions for when the workflow is relevant and a detailed checklist for final review. - Contains practical tips and guidance for both batch and streaming pipelines, with emphasis on reliability and clarity.

● 无害

安装命令

点击复制

官方npx clawhub@latest install data-pipelines

镜像加速npx clawhub@latest install data-pipelines --registry https://cn.longxiaskill.com

技能文档

# 数据管道管道会在静默 schema drift、部分写入、职责不清时失败。设计时保证至少一次交付、幂等 sink、可观测 stage。 ## 何时使用该流程 触发条件： - 批处理或流式摄取（Kafka、Fivetran、Airflow、Dagster、Spark 等） - 迟到数据、回填或 schema 变更导致作业失败 - 新鲜度或行数 SLA 违约 初次提供： 使用六个阶段：（1）需求与 SLA，（2）源端契约，（3）转换与幂等，（4）编排与依赖，（5）质量与监控，（6）血缘与运维）。确认批处理 vs 流式以及云栈。 --- ## 阶段 1：需求与 SLA 目标： 新鲜度（延迟）、完整性预期、成本上限、失败容忍（隔离 vs 停线）。 退出条件： SLA 表：pipeline → 指标 → 阈值。 --- ## 阶段 2：源端契约 目标： schema 版本管理；CDC vs 快照拉取；API 限流。 ### 实践 - 原始落地区不可变；下游为 curated 层 --- ## 阶段 3：转换与幂等 目标： 确定性转换；upsert 键；支持回滚的分区策略。 ### 实践 - 为增量加载设置 watermark 进度 --- ## 阶段 4：编排与依赖 目标： 清晰的 DAG；重试策略；回填不重复计数；SLA 违约告警。 --- ## 阶段 5：质量与监控 目标： 数据质量检查（null 激增、行边界、参照完整性）；延迟、耗时、错误率指标。 --- ## 阶段 6：血缘与运维 目标： 有价值的列级血缘；值班手册；每条 pipeline 明确归属。 --- ## 最终审查清单 - [ ] SLA 与失败策略明确 - [ ] 源端契约与 schema 演进路径 - [ ] 幂等写入与 checkpoint - [ ] 带重试与安全回填的编排 - [ ] 数据质量检查与告警 - [ ] 血缘与归属已文档化 ## 有效指导小贴士 - 大规模 shuffle 时，将计算与存储成本 awareness 分离。 - 与 etl-design 搭配用于批处理模式，与 message-queues 搭配用于流式交接。 ## 处理偏离 - 单脚本 pipeline：仍需记录输入、输出与调度。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库