📦 Databricks 数据
v1.0.0Databricks 是一个云中立、统一的数据 lakehouse 平台,提供可扩展的批处理与流处理、AI/ML 集成以及企业级安全。
运行时依赖
安装命令
点击复制技能文档
Databricks 概览 Databricks 是一家数据与 AI 公司,首创“lakehouse”架构,将数据仓库与数据湖能力合二为一。由 Apache Spark 原创团队于 UC Berkeley 创立,已从开源数据处理工具成长为 430 亿美元估值的 AI 基础设施平台,与 Snowflake 正面竞争。
历史时间线 2013:Matei Zaharia(Spark 作者)与 5 位 UC Berkeley 研究员在旧金山阁楼创立 2014:开源 Apache Spark,成为第一大分布式计算引擎 2016:启动 Delta Lake 项目,为数据湖增加 ACID 事务 2019:提出“lakehouse”概念,挑战传统数仓模型 2020:融资 4 亿美元,估值 62 亿美元 2021:收购 8080 Labs(dbt 替代方案创造者) 2023:发布 DBRX 模型,部分基准媲美 GPT-4;融资 5 亿美元,估值 430 亿美元,筹备 IPO 2024:推出 Lakehouse AI,把 ML 嵌入数据工作流;ARR 突破 20 亿美元
商业模式 消耗量定价 + 企业订阅 平台使用费:按数据处理量(DBU)计费,类似 AWS 模式 企业版:安全、协作、SLA,年费 5 万–1 千万美元+ AI 功能:Mosaic ML、Lakehouse AI,独立定价层 市场生态:Databricks Marketplace 抽取数据产品交易佣金
护城河 开源根基:Spark 为事实标准,继承 Hadoop 生态,开发者心智占有率高 Lakehouse 创新:融合数据湖低成本存储与数据仓高性能查询 AI 原生:端到端覆盖数据→ML 训练→推理,比 Snowflake 更偏 AI 云中立:同时支持 AWS、Azure、GCP,避免云厂商锁定
关键数据 ARR:20 亿美元+(2024) 估值:430 亿美元(2023 融资) 客户:1 万+ 企业 Fortune 500 渗透率:50%+ 开发者社区:Spark 全球最大开源数据社区 总融资:39 亿美元+
趣闻 创始人 Matei Zaharia 在 UC Berkeley 读博期间写出 Apache Spark;论文在其博士答辩前几周发表,随后成为分布式计算史上被引用最多的论文之一,Databricks 即由该论文直接孵化。