阿里大数据应用(阿里云数字制造)

我们先来看看蚂蚁是怎么宣传那几加平台的。爆炸点相当多。以下引用自网络新闻：

2016年1月，AlibabaCloud (阿里巴巴云)发布了全球首款能够提供一站式大数据处理能力的平台——“数加”，包括数据采集、计算引擎、数据加工、数据分析、机器学习、机器学习、据说“这些技术至少领先业界三年”。

大数据计算服务(MaxCompute )、分析型数据库(Analytic DB )、流计算) StreamCompute共同构成了基础强大的计算引擎，速度更快、成本更低。据估算，自建Hadoop集群的成本是几加的1.5倍，国外计算机制造商AWS的EMR成本是几加的5倍。具体情况如下：

大数据计算服务6小时可以处理100PB的数据，相当于1亿部高清晰度电影。单集群规模超过万台，支持多集群联合计算。实现了更快、更低的成本。据估算，自建Hadoop集群的成本是几加的1.5倍，国外计算机制造商AWS的EMR成本是几加的5倍。 AlibabaCloud (阿里巴巴云)当天宣布，大数据计算服务将进一步降价50%。

分析型数据库实现了数据的实时多维分析，百亿量级的多维查询只需要100毫秒。

流媒体计算擅长分析实时流媒体数据，具有低延迟、高性能的特点。每秒检索率达到千万级，一天能处理1兆件、Pb级的数据。

除了计算引擎外，数加还提供了最丰富的云数据开发工具包，开发者可以一站式进行数据加工。这些产品包括数据整合、数据开发、调度系统、数据管理、运输电视、数据质量和任务监控。

在数据分析中，“数加”为开发人员提供了三个产品，即移动数据分析产品、“数加BI”报告产品和数据可视化产品DataV。

此外，还包括特征工程、大规模机器学习、深度学习等图形化机器学习工具，并提供规则引擎、推荐引擎、文字识别、智能语音对话等数据APP。

看到数加这种开放式产品，我惊讶的同时也很佩服。蚂蚁确实做了很棒的事。无论实际效果如何，推出数加这样的大数据服务产品，无疑给国内众多相关企业带来了更明确的思考方向和技术参考。近年来，由于太多的大数据PaaS平台突然出现，审美疲劳了，但能落地的几家公司应该是第一家吧。但是，冷静下来，在几加平台没有足够的顾客和运营数据之前，谈谈我的意见。这里总共有八个问题：

01数加的封闭性

加上数量，在蚂蚁内部自己玩是好的，但对外部客户来说，不开放意味着什么都要被束缚，即使有新的东西和想法也很难载入。当然阿里也可以与时俱进，但我知道这样大平台的数据类工具能多快响应，有开发经验的话，数据类组件总是在迭代中逐步完善到可用为止。我不知道蚂蚁对此有什么看法。

另外，封闭性系统在开始阶段没有达到很高的关键点，就觉得很难引爆市场。阿里的很多数据能力确实领先，但还远远没有领先。目前，可替代的开放性组件也不少。数加大数据计算服务(MaxCompute )、分析型数据库)、分析数据库)、流计算)、开发生态系统对应的Hadoop、Impala、stream等的总

02目标市场问题

大中型企业往往有自主构建大数据平台的能力，由于几家公司太重，几乎没有全面考虑。几加几个组件很有特点，很多企业应该也需要，但由于封闭性，大企业很难只采用分析型数据库(Analytic DB )这样的一个组件，开发套件是独自的，也是第三方虽然阿里的一些组件有优势，但是元数据、数据质量、数据调度、数据显示等组件实际上很难说有优势，所以不需要体验。这需要蚂蚁特别研究解决。

中小企业和创业公司最初预计数据量不会很大，但与此同时市场变化非常迅速。市场上是否有这样的PaaS级核武器，能否适应小快灵也值得怀疑。

03成本是问题吗

据阿里称，自建Hadoop集群的成本是数1.5倍。是不是蚂蚁估算错了？考虑到运输维度等，总之需要量的差异啊。不管这是多大的差距，自制Hadoop集群带来的安全性、自主性、灵活性、迅速性等好处不是可以忽视的要素。而且，大数据还是蓝海，不如红海。这个差距是什么？

另外，我觉得国内的租赁文化还有很长的路要走。我们习惯买房子，不习惯租房子。因为我感觉没有归属感。即使知道租房可能更经济，1.5倍也远远达不到那个爆炸性的关键点。我个人认为至少是5倍以上吧。

04库存访问问题

无论哪个企业建立数据仓库或大数据平台，它都与业务源系统密切相关。另外，由于大数据平台多为后台系统，因此为业务源系统进行了大量的定制化改造。例如，在我的公司，大数据平台的收集组件选择了产品化的产品，但是只有进行了大量的改造以适应本地源系统，才能实际使用。另外，在网络等各种辅助设施方面也进行了很多优化。如果采用几个组件的话，感觉非常好的开放性怎么样？例如，那个采集零件有多少存取能力？

05数据分析宏坑

很多咨询公司在绘制大数据平台框架时，喜欢制作服务包，像顾客洞察的山一样。

标准化数据分析功能，但这个也只是内部用用，实际很难实现通用的开放数据分析服务。

当前的SOA等系列概念，基本都是从OLTP系统的基础上演化而来的，本质上就是能力内部封装实现，对外提供标准化服务，从而降低开发成本，迅速扩大规模，这个概念用在OLTP系统上，的确比较适用，即我们一般所说的“功能”能够封装，因为这个功能是可枚举的，就好比C语言它搞了很多标准化函数，方便大家调用编程，提升效率。

大数据分析的特点是数据量大，类型丰富，速度快，更关键的是通过大数据的组合使得呈现出来的新数据形式无穷无尽，也就是说所谓的数据分析功能是很难穷尽的，因此打造数据分析组件，通过配置方式统一对外提供标准数据服务实际非常困难。

比如搞数据可视化服务，肯定是百花齐放，没有一种可视化工具可以独打天下，甚至是出现几个寡头也越来越难，为什么，满足不了特定的数据分析展现要求，数据体现方式太多了，这次阿里发布的数加BI报表产品、数据可视化产品DataV，我完全不看好，基本是废材的节奏。

不知道数加的图形化机器学习工具是基于什么计算引擎，而且机器学习图形化，这个坑有点大，一笑了之。

06使用是个问题

我申请了账户，登录进去，好少的功能，只有3-4个，本来期待有很丰富的介绍文档及大量的系统演示，但实际是很少，太少的文档，DEMO演示也没有，感觉无法理解这个系统的使用，这种体验如何才能让客户产生信任感并决定掏钱包呢。我觉得数加虽然推出了，但大量的准备工作还没做好，可能过于仓促吧。比如笔者研究了老半天规则引擎，硬是没看懂，可能愚笨吧，感觉产品说明书是技术人员写得？

07全链条太困难

数加有万丈雄心，号称支撑数据全链条，但这句话过于狂妄，任何PaaS平台都是基于业务需求的驱动积累到一定程度后抽象出来的公共基础组件，也就是说，业务需求是第一驱动力，相信阿里的这些数据组件都是基于阿里的业务场景抽象出来的，但阿里的业务场景能多大程度代表整个行业，它能代表互联网行业吗，不能，很多业务场景它都没碰到过，即使在电商行业，它对于业务的覆盖也不能说完整，更不用说面向全社会了，可能阿里的客户会非常局限在特定的电商行业领域，因为其他领域它业务不清楚，很难支持。当然有些数据组件非常底层，因此它可以支持，比如数据抽取，因为这个业界已经有一定标准，数据仓库玩这个已经太多了，通用性可以提炼，但即使这样，估计阿里的数据抽取工具，也很难适应比如我公司OGG的一些特定要求，一些跟业务相关性非常高的组件，比如元数据，数据质量管理，可视化，数据分析、机器学习、数据应用，里面的细分场景太多了。

08缺失一些信息

作为客户，我不仅仅担心能力方面的问题，我更担心数据安全问题，高可用等问题，但这些方面数加似乎对外未予以澄清，数加如何确保企业的数据接入后获得足够的保护，如何确保工具本身的透明性，如何防止非企业客户对于数据的非法接触，是否提供了足够的数据安全和加密手段，确保数据不被泄露和偷窥。关于高可用性，数加的SLA有没有，能达到什么程度，因为一旦企业将其作为生产系统，这些能力往往比计算等能力要求更高。

谈了这么多，很多属于有感而发，由于没有完整的机会接触数加各个组件，因此很多理解肯定不到位，心存很多疑惑，据说数加平台仅用了1年就完成了对内到对外支撑的转身，这是火箭的速度，因为从专业到通用，从通用到有商业价值，这个很难，不仅仅要考虑功能，更要考虑开放性，安全性，可用性等更多的问题，同时希望数加更多从客户的角度去考虑问题，而不是炫耀其能力，核弹打蚊子虽然夸张了点，但也有一定的道理，据说EMR卖的不好。最后希望阿里的数加能克服这些困难，继续进步，用运营的数据来证明其成功吧。

来源：与数据同行作者：阳光的豆芽博士毕业于浙江大学从事电信行业工作，专注于大数据采集、处理、建模、管理、变现及产业等研究

关于我们

数据分析网（www.afenxi.com），国内大数据门户，旨在帮助大数据从业人士、爱好者提供大数据新闻资讯、前沿技术、业界观点的信息平台，为企业管理lkdkj与大数据专业技术人士进行大数据软件工具采购、商业智能系统搭建、数据产品建设等提供所需的最新国内外趋势、技术信息与资源。