首页 > 编程知识 正文

大数据最显著特征,大数据特征有几种

时间:2023-05-05 00:28:33 阅读:265768 作者:1097

今日分享:大数据

一起来了解下大数据的前世今生:

一:大数据的定义

大数据这一词,在上世纪80年代就有美国人曾提出来,直到2008 年 9 月,《科学》杂志发表文章“Big Data: Science in the Petabyte Era”,“大数据”这个词才开始广泛传播。

小编从网上找了以下几个关于大数据的定义:

1:Wikipedia:

Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them.

也就是说无法利用传统的数据处理软件来处理的大且复杂的数据集

2:IBM:

Big Data is being generated at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Much of this data is coming to us in an unstructured form, making it difficult to put into structured tables with rows and columns.

主要强调了大数据是时时刻刻在产生,产生的途径比如我们常见的社交媒体、穿戴设备、传感器等,同时也强调了其非结构化特征,很难存储于结构化的数据库中。

3:全球知名咨询公司麦肯锡是这样定义的:

大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。

以上几个定义是有交集的,也就是大数据的普遍定义了:量大复杂、无法用传统的手段来处理。

下面再说一下大数据的特征,会更利于理解

二:大数据的特征

关于大数据的特征也是有很多说法:

1:The concept gained momentum in the early 2000s when industry analyst Doug Laney articulated the now-mainstream definition of big data as the three Vs:

这个3V特征是最先主流的一种说法:

(1)Volume(数据体量大). Organizations collect data from a variety of sources, including business transactions, social media and information from sensor or machine-to-machine data. In the past, storing it would've been a problem – but new technologies (such as Hadoop) have eased the burden.

数据来源渠道多,商业交易终端、社交媒体、传感器,举几个咱们熟悉的例子,比如超市的收银、pose机、RFID手持终端,社交媒体比如QQ、微信、微博等、还有一些运动传感器、手环等等,这些设备都是海量数据的来源。在以往是没有这些数据的,而现在有了,但是以前的数据处理器处理软件已经跟不上这些需要,必须要有新的设备,比如文中提到的Hadoop【Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。】

(2)Velocity(处理速度快). Data streams in at an unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time.

处理速度快主要强调了数据的时效性,这主要是讲的流式数据的时效性,也就是上一秒数据产生,下一秒就要把这些数据的影响分析出来。

(3)Variety(数据种类多). Data comes in all types of formats – from structured, numeric data in traditional databases to unstructured text documents, email, video, audio, stock ticker data and financial transactions.

种类多主要是强调数据的分类:结构化、非结构化、还有一种分类是半结构化。对于这个结构化非结构化的区别,曾在研究生期间课堂上请教过老师,具体是这样:结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据(二维表结构可以理解为Excel表那样,通过坐标就可确定一个值))、非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等

2:在后来的发展过程中,大数据的特征又有所发展

(1)Value(低价值性)可以这样理解:某交通路口的交通灯,基本上全年全天候监控,这产生的数据量是非常大的,而对官方来说真正有用的可能就是出现事故、闯红灯事的那些时间,所以其价值密度是很低的。

(2)Veracity(真实性)主要包括数据的可信性、真伪性、来源和信誉、有效性等。

上述1和2中提及到的这5V特征基本概括了大数据的所有特征,当然不否认后来还会有学者提出。

3:以上的5维特征可能主要流行于学术界,我读paper是接触到的是这些说法,直到今天科学上网登Wikipedia时,才发现还有另一种特征的提法:

(1)Factory work and Cyber-physical systems may have a 6C system:

(2)Connection (sensor and networks)关联性

(3)Cloud (computing and data on demand)云计算特征

(4)Cyber (model and memory)网络特征

(5)Content/context (meaning and correlation)文本特征

(6)Community (sharing and collaboration)社交性

(7)Customization (personalization and value)独特性

这种特征法可能更适合于工业界、物理网络空间

希望以上的内容分享有助于大家对大数据这一概念的了解

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。