一、Databricks 数据洞察产品介绍

1、数据积木公司简介2、什么是AlibabaCloud (阿里巴巴云)数据积木数据洞察产品

01 (data积木公司简介

ApacheSpark创始公司是Spark最大的代码贡献者，也是Spark技术生态背后的商业公司。

2013年，由加州大学伯克利分校AMPLab创始团队ApacheSpark的创始人创立。

主导和推进核心产品和技术、Spark开源生态

打包、删除、解密、流动、Onelakehouse平台

公司的定位

数据库公司为客户提供数据分析、数据工程、数据科学和人工智能方面的服务。一体化Lakehouse架构开源VS业务版本：公司大部分技术开发资源投入商业化产品雾霾战略，与顶级云服务提供商合作，提供数据开发、数据分析、机器学习等产品，Data AI

独角兽、行业标杆、Spark整体技术生态走向和风向标2021年最受期待的科技上市公司02 (引领Data金砖公司估值和融资历史，

(资料来源：数据积木官方网站)

2019年10月g轮，估值$ 6.2 Billion

2021年2月上旬f轮，估值$ 28 Billion

本轮金融、三大云服务公司AWS、GCP、MSAzure和Salesforce都投了3354，足以看出云厂商重视Data积木的发展，期望上市。 2021年3354家公司预测data金砖四国上市时，IPO估值将达到350亿美元，也有可能达到500亿美元(

03 ) data积木和AlibabaCloud (阿里巴巴云)合作搭建的高质量Spark大数据分析平台；

Apache Spark背后的商业公司，Spark创立团队。美国科技独角兽在全球拥有5，000多名顾客和450多个合作伙伴，品牌知名度很强。2020年，Gartner发布的数据科学与amp；在机器学习(DSML )平台魔力象限报告中位于领导者象限

04 (阿里巴巴云)=数据积木数据洞察

产品核心：

基于商用版Spark的完全托管大数据分析了内置于AI平台的商用版Spark引擎Databricks Runtime，提供了计算级高效稳定的保障和AlibabaCloud (阿里巴巴云)产品和

务：

100% 兼容开源 Spark，经阿里云与 Databricks 联合研发性能优化提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

DDI 产品能力核心构件

产品关键信息与优势

二、DDI 产品功能介绍

1、整体架构2、引擎能力3、性能4、功能5、成本

01 阿里云 Databricks 数据洞察 (DDI) 架构

02 引擎：企业级性能优化，提升计算引擎效率和数据读写效率

企业级高性能、稳定性、可靠性

03 企业级 Databricks Runtime vs 社区版 Open Source Spark

04 基于计算存储分离的架构，HDFS vs OSS 成本的对比

05 基于 JindoFS 进行 OSS 访问优化加速，优化数据访问性能

06 交互式分析 Notebook ，聚集数据

优化的 Apache Zeppelin

多语言支持Scala、Python、Spark SQL、R交互式分析数据可视化集成调度能力一站式开发平台多用户协作开发

07 数据开发作业提交 & 工作流调度

支持 jar 包提交作业及作业调度能力支持 Spark/Spark Streaming/Notebook不同作业类型工作流混合调度支持调度运维、审计日志、版本控制等

08 丰富的数据源支持

09 元数据管理

三种元数据选择的方式

三、典型场景

1、客户存在的痛点问题及 DDI 如何解决2、Lambda 架构到批流一体架构3、Lakehouse 架构的演进4、DDI 在阿里云中产品的组合

01 开源大数据平台客户普遍存在的痛点问题

02 Databricks 数据洞察在四大场景帮助客户提升生产效率

03 Delta Lake 的项目背景以及要解决的问题

04 大数据发展进入 Lake House 时代

05 使用 DDI 构建批流一体数仓，简化复杂架构

06 DDI 在阿里云产品中的组合

07 Databricks 数据洞察典型架构

DDI 与阿里云产品深度集成（典型场景）

数据获取

接收实时产生的流式数据和外部云存储上批量数据。

数据 ETL

持续高效地处理增量数据，支持数据的回滚和删改，提供 ACID 事务性保障。

BI报表数据分析 & 交互式分析

支持 Ad hoc 查询，Notebook 可视化分析，无缝对接多种BI分析工具。

AI数据探索

支持机器学习，Mllib 等 Spark 生态 AI 场景。

上下游网络打通

如上游对接 Kafka、OSS、EMR HDFS 等等，下游承接 Elasticsearch、RDS、OSS 存储等。

四、典型场景客户案例介绍

1、基智科技（STEPONE）自建上云案例2、工业制造头部公司数据分析案例

客户案例 01：基智科技（STEPONE）Databricks 上云迁移

本架构描述利用 Databricks 数据洞察解决客户大数据计算问题：

数据存储：自建 Hive数仓-》OSS （降低存储成本，同时做计算存储分离）大数据分析：自建 CDH -》Databricks 数据洞察（全托管 Spark ，高性能 Runtime 引擎，Notebook 交互式分析，工作流 DAG 调度， Python 库的安装方便等）元数据：自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库数据迁移：使用 DistCp 或 JindoDistCp 将数据迁移到 OSS，数据结果同步继续使用Sqoop 定时任务

客户成本收益分析

全托管 Spark 集群免运维，节省人力成本（省1运维+ 1大数据，此外免去性能调优）相比自建机器资源多了3倍，此外算上 Databricks Runtime 相比开源 spark 来说（预估3倍），整体性能提升9倍Notebook 交互式分析+ DAG 工作流调度，提升数据开发/分析体验技术方案统一，计算存储分离方案 OSS 存储节省客户存储成本，并为以后数据湖、多计算架构铺路Delta Lake 解决了客户增量数据更新的问题

客户案例 02：工业制造头部空调公司– 大数据分析方案架构

数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据数据 ETL：持续高效地处理增量数据，支持数据的回滚和删改，提供 ACID 事务性保障BI数据分析&交互式分析: 支持查询，Notebook 可视化分析，无缝对接多种BI分析工具数据科学：支持机器学习/深度学习⽣态对接：如上游对接 Kafka、OSS、EMR HDFS 等等，下游承接 Elasticsearch、RDS、OSS 存储等

讲师：棕泽，阿里云技术专家，计算平台事业部开放平台-生态企业团队负责人

本文为阿里云原创内容，未经允许不得转载。

Databricks数据洞察(wHadoop大数据平台应用需求分析)

一、Databricks 数据洞察产品介绍

二、DDI 产品功能介绍

三、典型场景

四、典型场景客户案例介绍