首页 > 编程知识 正文

大数据 基础知识,大数据处理入门

时间:2023-05-03 18:38:53 阅读:170112 作者:4680

作者|橙子

校对

编辑|编辑

全文共1457字,预计阅读时间15分钟。本文的视频版本如下,欢迎关注并观看。

以下为文本版本。

大家好。 欢迎来到数据与智能教室~

今天的课内容是《大数据基础入门介绍》。

这次的内容分为大数据的概念、大数据技术、大数据的应用三个部分进行说明。

1

1. 大数据的概念

现在,在我们的日常生活中,随时可以听到“大数据”这个词。 那么,大数据是什么呢? 关于这个问题,现在普遍认可的是“4v”学说; 4v是指volume数据量大,variety数据类型多,velocity数据处理迅速,value数据价值密度低。

volume :

从20世纪90年代到21世纪初的20年间,世界数据量增长了100倍。 随着移动互联网的发展,人们可以随时随地在微博、微信、知乎、博客等社交平台上发布各种信息。 同时,由于物联网的飞速发展,打开手机的GPS就会生成定位数据,随处可见的摄像机会生成庞大的视频数据等,各种传感器也能生成巨大的数据量。 数据量从TB级别上升到了PB、EB、甚至ZB级别。 有学者预测,到2020年,全世界总共将有35ZB的数量。

variety :

数据类型包括结构化数据和非结构化数据。 结构化数据通常是存在于关系数据库中的数据。非结构化数据的种类很多,例如图像数据、音频数据、视频数据、位置信息数据、日志数据等。 目前,结构化数据只有10%左右,剩下的约90%是非结构化数据。

维罗城:

数据量巨大,正在迅速增长。 例如,推特每分钟至少可以生成10万条推文,微博每分钟可以生成2万条信息量。 因此,数据的处理速度也必须非常快。

value :

数据是有价值的,但数据的价值密度高低与数据总量成反比。 也就是说,海量数据中有价值的信息分散,很难找到有价值的信息。

2

2. 大数据技术

谈大数据技术时,首先要了解大数据处理的基本流程。

大数据处理的基本流程包括五个阶段:数据采集数据预处理数据存储数据分析数据可视化。 因为其中的每个阶段都涉及到很多相关技术,所以大数据技术被认为是很多技术的集合。

数据收集:爬虫工具、日志收集工具等。

数据预处理:将采集到的数据直接拿来并不常见,可能存在数据缺失、丢失或语义不明确等情况,因此进行数据预处理。 包括数据清洗、转换、集成等。

数据存储:分布式文件系统、关系数据库、NoSQL数据库等

数据分析:分布式并行编程模型、机器学习等

数据可视化: Excel、Echarts、Gephi等

大数据分析技术大多来源于云计算技术。 这里主要介绍云计算的三个主要技术。

虚拟化技术是指一台计算机可以同时运行多台虚拟计算机,每台虚拟计算机可以安装不同的操作系统。 VMWare、virtualbox等常见虚拟化技术。

分布式存储技术(指将一个大文件分成多个文件块,分散保存在不同的机器组成的集群中。 例如,在下文所描述的GFS、Google的分布式文件系统和HDFS (hadoopdistributedfilesystem )是GFS的开源实现。

分布式计算技术:谷歌公司提出的并行编程模型MapReduce可以将一个大数据集分割成许多小数据集,分布在不同的机器上同时处理,大大提高了数据处理的效率。

3

3. 大数据的应用

大数据已经渗透到社会生活的方方面面,比如政府部门、金融业、互联网行业、电信行业、医疗行业、物流行业、餐饮行业等。

举例说明:

政府部门可以利用大数据技术进行“舆情分析”,帮助政府部门监测网络舆情,预测话题发展趋势,协助政府决策。

在金融业,企业可以利用大数据分析市场行情,判断价格动向和客户等。

互联网、通信等行业可以利用大数据技术分析用户行为,构建用户图片,并在此基础上进行更能满足用户偏好和需求的推送和服务。

欢迎扫描二维码关注数据和智能微信公众号,获取更好内容。 回头见~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。