首页 > 编程知识 正文

大数据架构师书籍推荐(首席大数据架构师是干什么的)

时间:2023-05-06 17:41:46 阅读:93997 作者:2702

什么是大数据?

大数据,英语是Big Data。 现在广为人知的这个名字是在《自然》 Nature杂志2008日的专辑Big Data中首次提出的

谷歌在推进全球范围的信息整合中,极大地推动了大数据技术的创新和发展。

但是,到底什么是大数据? 其概念和角色包含什么? 由于大数据是近期新派生的概念,其内涵和外延也在不断扩大和变化,目前尚无业界广泛采用的明确定义

201月,麦肯锡全球研究公司(MGI在其报告《大数据:创新、竞争和生产力的下 个前沿领域》中指出,所谓大数据,是传统的数据库软件工具无法抓住其内容, 管理和处理的大致数据集合((big data ' referstodatasetswhosesizeissxdjmtheabilityoftypicaldatabasesowaretoolstocapture,store,manage, 几乎同时,andanalyze在国际数据公司(IDC )制作的年度数字宇宙研究报告《从混吨中提取价值》 Extracting Lue from Chaos中指出,大数据技术是新一代技术和架构, 它是在成本可承受的条件下,通过非常迅速的(velocity )采集、发现、分析,从大致的量(volumes )、多种)、的数据中得出价值) value )、 bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures、esignedtoeconomicallyextractvaluefromverylargevolumes 按启用高电平捕获、发现、分析高电平捕获

IDC的定义记述了大数据时代的四个特征,俗称4V,这个4v(volumesvelocityvarietyvalue )也被广泛认可为大数据最基本的内涵。

(1)海洋的量化(volumes ) ) )。

数据量庞大是大数据的首要特征,也是大家最容易发现的特征。 世界数据正以前所未有的速度增长,每天都在互联网上生成数百万兆字节的数据。 据估计,全球可统计的数据存储量2011年约为l.8ZB,2015年将超过8ZB。 数据的爆炸性增长引发了数据存储和处理的危机。

(2)多样化) )。

数据类型的多样化是大数据的另一个特征。 传统数据可以作为称为结构化数据的二维表保存在数据库中。 但是,随着互联网多媒体APP的兴起,图像、语音、视频等非结构化数据已成为数据的主要组成部分,据统计,目前全球非结构化数据占数据总量的90%左右。 如何有效处理非结构化数据,挖掘其中蕴含的商业价值和经济社会价值,是大数据技术亟待解决的问题。

(三)加快速度) ) ) )。

快速处理是大数据必须满足的要求。 在经济全球化的形势下,企业面临的竞争环境越来越严峻。 在这种情况下,如何及时把握市场走势,深入洞察行业、市场、消费者的需求,迅速合理地制定经营战略,是企业生死存亡的关键。 大数据的快速处理分析是实现这一目标的前提。

(4)价值化)价值

大数据所包含的整体价值巨大,但由于噪声信息多,其价值密度低,这是价值维度上大数据的两大特征。 挖掘和利用大数据的有用价值井是数据所有者的自然目标,但市场形势瞬息万变。 因此,如何在海洋的、多样的、低价值密度的数据中迅速挖掘其内涵的有用价值,是大数据技术的使命,但之后,就如veracity (真实和准确)一样,真实和准确的数据对数据的管理和管理真正具有意义像vitality (动态性)一样,强调数据体系的动态性等,对大数据的内涵有一定的推动作用,但都没有最初的4V那样的扩展

大数据设计师入门,什么是大数据? 大数据技术的发展趋势

大数据的本质

所有技术的发展都是为社会进步服务的,大数据技术也不例外,但大数据技术促进社会生产的作用是变革性的,也是卓越性的

《大数据商业APP第一人》Viktor Mayer-Schonberger在着作《大数据时代》中指出,大数据正在变革我们的生活、工作、思维大数据,开启了大时代的变革,给我们带来了思维的变革、思维的变革、 他积极地指出,要推翻人类几千年来的思维习惯,为人类的认知和世界交流的方法提出了全新的东西

(1)所有样品

我们使用更多的数据

全部数据来进行分析,而不再采用随机样本可能性角度,当前的技术能力己经可以支撑海量数据的处理:从必要性角度,有时候数据分析的目的就是要发现大量正常数据中的少数异常情况,例如跨境汇款中的异常交易,这无法通过采样分析获得

(2)概率化

我们将不再沉迷于精确性,而是允许劣质数据混杂其中 大数据时代不可能实现精确,反之用概率来表示事物发展的大方向,混杂性变成了 种标准途径

(3 )相关性

我们将更关心相关关系,因果关系被放到次要的位置。在很多场 下,“是什么”比“为什么”对决策的帮助更大,可以在快速变化的环境中帮助你先发一步。

甚至,在 些不知道“为什么”的场景下,知道“是什么”反而有助于人们取得发现“为什么”的基于这种思维发展起来的大数据技术, 有以往的各种技术不具备的准确性和实时性优势, 它应用到社会各行业生产中时,对社会生 效率的提升是异常显著的很多人对于大数据应用的认识,都始于Google 对于流行性 病的成功预测Google利用当前人们 欢上网搜索解决方案(如搜索流感症状或者治疗药物)的习惯,找出了对应时段内某些特定 段的搜索频率与美国疾控中心历史记录中某些流行性疾病在 间和时间上的相关性,并据此而建立了 个数学模型 利用这个数学模型, Google成功预测了2009 HIN !流感的发展过程。

而这个成功应用带来的振奋远不止如此 首先,作为 家互联网公司, Google在与其 无关联的医学专业领域获得了成功;更重要的是,它的预测在准确性特别是实时性方面,远远超过专业的美国疾控中心

于是,更多的人在更多的行业开始了大数据应用尝试。售业:梅西百货(Macys)己经实现对多达7300万种货品进行实时调价,以实现销量和利润的双重最大化:塔 特(Target)公司通过对用户历史消费记录的大数据分析,实现对用户下 阶段消费行为的预测,从而实现精准投放

在博彩业:Tipp24 AG 公司用 KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动 这项举措减少了90% 的预测模型构建时间

在通信业:中兴通讯创新性地提出了基于大数据技术的电信系统反馈环理念,让电信网络作为 个整体获得实时的系统反馈,从而使网络性能更加稳定,网络运维更加高效;而全球 120家运营商中,已经有48% 的企业正在实施大数据战略,通过提高数据分析能力,他们正试图打造着全新的商业生态圈,实现从电信网络运营商(Telecom)到信息运营商(Infocom)的华丽转身。

在金融业:阿里通过对用户消费习惯的大数据分析,己经可以将余额宝第二天的赎回规模的预测准确率保持在97% 以上,连“双十 ”等大促销造成的大规模资金流动也不例外:中信银行与中兴通讯大数据平台强强联合,打造 个全新的“数据银行”,利用金融大数据更科学地实现加强风险管控、精细化管理、业务创新等业务转型

在公共管理行业:中兴通讯为2014 南京青奥会打造的“环宁护城河”项目,将各种警务数据在大数据平台上集中处理,从时间和空间两个维度进行实时统计和展现,为青奥安保工作部署提供科学的决策依据

越来越多的实践证明,大数据运用可以为各个行业带来巨大的收益。

麦肯锡在它的报告中,根据各行业利用大数据技术获取利益的潜力,将各个行业分为 个组别

(1 )计算机和电子产品及信息行业必然能够从大数据中获取巨大利益,该行业本身就有巨大的信息池且具有快速创新的特点,与大数据天然吻合。

(2 )社会公共管理及金融业则需要通过细分和自动化算法来克服技术障碍,从而大为受益。

(3 )建筑、教育服务、艺术和娱乐等行业则面临着获取海 数据价值的系统障碍。当然,如果这些障碍是可以克服的,则也可以从大数据中获益。

(4)制造业、批发贸易等行业全球交易程度高,如果能够克服数据和技术上的障碍,则从行业普遍意义上讲获益巨大,但面临的困难同样不小。

(5 )零售、医疗、住宿和食物等本地服务行业全球交易程度低,则从行业普遍意义上讲,从大数据中获取价值的潜力相对较小。

大数据技术当前状态

随着大数据在各个行业的广泛应用,各个行业在得到大数据带来的收益的同时,也在推动着大数据技术的飞速发展

不同的行业有着不同的业务特征,进而也有不同的需求。如何满足这些不断涌现的需求,成为推动大数据技术发展的动力

1. 零售行业

(1 )业务特征

零售行业同类产品的差异小,可替代性强,提高销售收入离不开出色的购物体验和客户服务。同时,零售行业需要增强产品流转率,实现快速营销。

(2 )需求分析

提升客户购物体验的 个关键途径是精准营销,而精准营销的核心是用户消费行为分析,即用户识别 这个过程涉及消费历史记录、电话用 /电子邮件等数据中折射出的用户消费习惯识别。

快速营销的分析和决策基于对 品产、销、存及物流各个环节的大数据分析,涉及条码技术、标签技术、全息扫描技术、盯技术等技术。

2. 互联网行业

(I )业务特征

互联网行业主要特征之 是数据量呈爆炸性增长,数据结构类型日趋复杂。各种类型的信息和数据都 现爆炸式地增长。全 的数据都是在过去两年中生成的。在未来几年,数字信息会 现更加惊人的增长,预计到202 ,信息和数据总量将增长44倍。

另一个特征是用户行为丰富, WE 社群关系复杂。互联网己经不再是单纯地浏览网页信息,互动己 成为主要方 用户行为和网络中的社会群体变得更加多样化、复杂化

(2 需求分析

用户粘性对于互联网公司来说是至关重要的测评指标 而从爆炸性增长的数据和复杂的用户行为中,提取有价值的信息,分析用户行为,建立用户模型,来提高用户体验、增加用户粘性,是大数据技术发展的挑战和动力。

3. 电信行业

(1 )业务特征

数据 激增,保存时间长 。近些年 ,由于无线上网和智能手机的推广,导致电信行业数据量呈现爆炸性增长 从全球移动网络中语音和数据流量的状况来看,2009 年末,数据流量超过了语音流量,到20 年数据流量已经超过语音流量的两倍根据研究预测,到 015 年全球移动数据流量将 2010 上升26 。电信行业不仅仅数据量大 ,而且保存时间长, 般电信行业要求数据保存 2年6个月。

受众群体大,市场饱和度高。电信业务己经是人们生活中的必需品 ,用户数量非常巨大,整体市场饱和度高。

(2 )需求分析

一方面 流量和用户的激增,给现有网络带来了巨大的压力。如何保持现有网络的稳定高效运转,成为各大运营商首先需要考虑的问题。而大数据技术能解决这问题,例如中兴通讯提出的“基于大数据技术的电信系统反馈坏理念”。

另一方面,运营商面临着从业务提供者到管道提供者的转变。如何在这个转变过程中,高效、合理地优化网络建设,同时能够发现潜在的信息应用需求并转变为商业价值,也需要大数据技术的支撑。

4. 金融行业

(1 )业务特征

金融业有着数据池积累巨大的天然优势,但同时如何挖掘数据价值也成为挑战。另外,金融业是高风险行业,有着其他行业不可比拟的安全性要求。

(2 )需求分析

从大量数据中挖掘有价值的信息,并将其作为判断的依据,及时准确地进行金融智能决策,是金融业迫切的需求。

金融业对安全的苛刻要求,成为大数据技术的挑战。

5. 交通行业

(1)业务特征

数据量大,数据类型多。随着车辆保有量的不断攀升,交通综合监控呈多维、立体化趋势,数据分析面对的是文本、语音、图片、视频等多种类型数据的飞速增长。

实时性要求高。交通系统受很多因素的影响,时间、天气、路况、突发事件等都让交通状况产生突然井且累积性的变化。

(2)需求分析

面对多种类型的海量数据加上极高的实时性要求,大数据技术需要在存储、计算、分析、 处理等方面表现出超强的性能,才能满足对瞬息万 的交通状况进行及时调度和快速响应的要求。

大数据的技术发展趋势

随着大数据技术的发展, IT相关系统也正发生着变革。系统的硬件设计、软件设计,甚至商业部署都开始以数据为中心。也正是在这些实践和应用中,发现痛点井解决痛点的过程和探索,反过来推动大数据技术的发展。

从技术层面讲,以下几个方面将是大数据的热点。

(1 )硬件对架构的冲击

大数据对性能的要求非常高,而硬件的变化对性能会产生直接而巨大的影响,因此当硬件提升时,会推动大数据系统架构的变革,以达到充分利用硬件、大幅度提升性能的目的。

例如,下 代非易失内存(NVRAM)的性能接近DRAM(最短延迟为 DRAM2-3倍),这将对文件系统为主的存储架构产生巨大影响 ;同时,远程直接数据存取(RDMA)可将NVRAM连接成PB级(或更大)资源池,实现更简洁的内存计算,这将促进内存计算发展。

而针对数据的不同场景的专用硬件,将直接改变对应的系统架构。例如,对于很少使用的大容量数据,可以开发高密度/低IOI低功耗的低成本存储。

当大数据系统部署在云/虚拟化系统上时,系统架构需要考虑 :存储部署在虚拟机上时,如何保证 IO需求 MR等计算框架,采用移动计算到数据侧的模式,其计算资源如何虚拟化,等等。

(2 )计算框架

随着大数据应用逐渐广泛,单一的计算框架己经无法满足需求。2014年图灵奖获得者Stonebraker,人为:刀切(one size fits all)的数据处理架构将寿终正寝,在流处理、数据仓库、数据库和科学数据库等方面会出现专用化引擎。

SPARK在持续走热,也揭示了从单 MapReduce计算框架逐渐演变为多种计算框架井存的趋势。未来的计算框架将以通用计算框架为主(SPARK很可能成为主流),在特殊场景下辅以较为专业的计算框架。

(3 )数据封装的中间件

实现数据的封装,是生态型平台必须具备的功能。大数据中间件层就是实现这一功能的组件。它位于应用层与底层数据库之间,屏蔽掉底层传统数据库、 MPP、Hadoop等数据存储的差异,同时为上层应用提供统 的开发接口,让应用层无须考虑底层的实现。

在从传统架构向大数据架构演进的过程中,多技术混搭是现实的需求,而大数据中间件层使得混搭方案成为可能

(4)非结构化数据处理

在今天的互联网数据中,结构化数据仅仅占到 10% ,非结构化数据成为最重要的源数据。非结构数据通常有音频 视频、文本、特定行业数据(如电信信令)等音频/视频数据的分析,己经有较为成熟的分析软件:对于特定行业数据,业内相关公司已经开始探索,如中兴通讯对电信信令的大数据分析:而文本分析也是最近在开源社区较为活跃的话题,通过和不同行业的结合,可以产生较多衍生应用

(5 )智慧发现

学习可以分为数据、信息、知识、智慧 个层次,其中,智慧发现在未来很在智慧发现领域,人工智能与大数据有较多的交叉重叠,其中深度 习是热点。深度学习是通过构建具有很多层的学习模型和海 的训练数据,来学习更有用的特征

(6 )可视化

只有能被人类所理解的数据,才是有价值的数据:而可视化是最 观、最容易被理解的展示方式。

并不是只有传统的结构化数据可以可视化,操作、流程、信息等, 切皆可可视化。当前可视化技术 现如下 个趋势:

1)扁平化,即放弃 切装饰效果,所有界面元素的边界都干净利落,更加简单直接地将事物的工作方式展示出来 减少认知障碍的产生 同时,扁平化设计更简约,可以保证在所有的屏幕尺寸上都有相同的展示效果

2)动态化、可交互,即动态图形的表现力更丰富:通过界面的拖拽、点击、放大缩小,即可完成条件选择和切换 采用更少的菜单和更少的对话框,而不用复杂的条件选择对话框

3)多维度、多图联动 即通过多张图从不同维度展示同 个东西,即可在交互时,通过操作 张图引起其他相关图的联动,井且可以同时获得更多的信息。

本文摘自大数据架构师指南,望标明出处。

大数据架构师入门,什么是大数据?大数据技术发展趋势

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。