首页 > 百科知识 正文

三分钟入门大数据之什么是大数据(八张图告诉你什么是大数据)

时间:2023-11-22 16:08:33 阅读:143 作者:丿帝王

哈喽,大家好,我是汉斯老师。近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧。很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来。然而一方面受到“互联网寒冬”的影响,最近频频传出各家知名互联网公司裁员缩编的消息;另一方面,大量的人才涌入,又使得互联网产业在职场上呈现出供过于求的特征,并最终导致了职场上的激烈竞争。

那么互联网行业未来的潜力在哪里?我们又应该在哪个方向上发力,才能保证自己可以获得一份高薪而稳定的工作?基于多年的互联网行业从业经验,汉斯老师在这里向大家推荐大数据方向,希望通过本人的《三分钟入门大数据》和《十分钟精通大数据》系列文章,帮助所有有志了解学习大数据的朋友掌握大数据的相关知识,也欢迎所有对互联网行业以及大数据领域感兴趣的朋友前来交流。

三分钟入门大数据之什么是大数据(八张图告诉你什么是大数据)-第1张

什么是大数据?

大数据的权威研究机构Gartner给出了如下定义:

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。相对应的大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。

三分钟入门大数据之什么是大数据(八张图告诉你什么是大数据)-第2张

什么是大数据的5V特征?

大数据的5V特征是由IBM公司旗下研究人员最早提出的,具体如下:

  • 多样化(Variety)

多样性是指大数据技术所能获取到的数据的种类和渠道是多种多样的。首先,数据的种类繁多,包括但不限于各类文本,图片,音频,视频,网页,甚至是各类日志数据等;其次,获取数据的途径也是多种多样的。常见的数据获取途径包括网络爬虫爬取数据,企业或组织生产过程中产生和收集的数据,机器或传感器记录的数据,互联网上公开的数据,个人的消费数据或互联网上的浏览数据等。

  • 大量化(Volume)

一般涉及到使用大数据相关技术进行处理的数据量往往都比较大。这里提到的大量化的数据,包括采集到的原始数据的数据,进行转换后的结构化数据的数据,以及最终用于计算和分析展示的数据的数据。通常我们认为大数据的起始计量单位往往是PB级别的,换成通俗点的话说,如果一部两个小时的高清电影大概是5个G的话,大概要20万部高清电影的量。

  • 快速化(Velocity)

快速化通常包含三个方面的内容,即数据量增长快,数据处理的速度快和数据的时效性高,而这三者某种程度上又是相辅相成的。首先,数据量增长快是指原始数据会快速累积,以沃尔玛为例,其每小时平均交易量大约在100万笔。其次,数据的处理速度快,如前面提到的,每小时100万笔的交易量,普通的分析报表工具是无法处理的,这就要求必须使用能够快速处理大量数据信息的技术或工具。最后是时效性,在很多应用场景中,常常会对数据处理的时效性有着很高的要求,比如百度热搜,其需要做到实时统计分析用户搜索的关键词,对这些关键词统计分析后,整理出热搜榜。

  • (低)价值化(Value)

价值化,或者说低价值化,是指我们收集到的数据,往往有相当大比例是不符合我们需求的数据,或者是无法使用的数据。

  • 真实化(Veracity)

大数据中的数据都是通过直接从现实世界中获取,或者对直接获取的数据进行加工处理得到的,数据的准确性和可信赖度需要得到保证。

,

版权声明:该问答观点仅代表作者本人。如有侵犯您版权权利请告知 cpumjj@hotmail.com,我们将尽快删除相关内容。