首页 > 编程知识 正文

数据分析入门基础知识(学数据分析基础)

时间:2023-05-03 05:41:59 阅读:89219 作者:1620

数据和智能本公众号关注大数据和人工智能技术。 拥有多年实战经验的技术人员参加运营管理,持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章,每周至少输出7篇精品原创。 同时,关注和分享大数据和人工智能行业的动向。 欢迎关注。

作者|橙色

校对

编辑

全文共1457个字,预计阅读时间为15分钟。 这篇文章的视频版本如下。 请注意看。

大家好。 欢迎来到数据和智能教室~

今天的课内容是《大数据基础入门介绍》。

本次的内容分为大数据的概念、大数据技术、大数据的应用三部分进行说明。

1 .大数据的概念

现在,在我们的日常生活中,随时都能听到“大数据”这个词。 那么,什么是大数据呢? 关于这个问题,现在普遍公认的是“4v”学说; 4v是指volume数据量大、variety数据类型多、velocity数据处理迅速、value数据价值密度低。

卷:

从20世纪90年代到21世纪初的20年间,世界数据量增加了100倍。 随着移动互联网的发展,人们可以随时随地在微博、微信、知乎、博客等社交平台上发布各种各样的信息。 同时,由于物联网的迅速发展,打开手机GPS后会生成定位数据,无处不在的摄像头会生成庞大的视频数据等,各种传感器也可以生成庞大的数据量。 数据量从TB水平上升到了PB、EB、甚至ZB水平。 有学者预测,到2020年,全世界共有35ZB的数量。

variety :

数据类型包括结构化数据和非结构化数据。 结构化数据通常是指关系数据库中存在的数据。图像数据、音频数据、视频数据、位置信息数据、日志数据等非结构化数据的种类很多。 目前,结构化数据只有10%左右,剩下的约90%是非结构化数据。

速率:

数据量巨大,增长迅速。 例如,推特一分钟至少可以生成10万条推特,微博一分钟可以生成2万条信息量。 因此,数据的处理速度也必须非常快。

值:

虽然数据有价值,但数据的价值密度高低与数据总量成反比。 也就是说,在庞大的数据中有价值的信息是分散的,很难发现有价值的信息。

: left;line-height: 1.75;text-indent: 2em;">

2. 大数据技术

谈论大数据技术的时候,我们首先要了解大数据处理的基本流程。

大数据处理的基本流程包括五个阶段:从数据采集→数据预处理→数据存储→数据分析→数据可视化。这其中的每个阶段都涉及很多相关技术,因此我们认为大数据技术是多种技术的集合。

数据采集:如爬虫工具、日志采集工具等等。

数据预处理:采集到的数据一般不会直接拿来使用,可能会存在数据值得缺失、丢失或者语义不清晰等等情况,因此要进行数据预处理。包括数据清洗、转换、整合等等。

数据存储:分布式文件系统、关系数据库、NoSQL数据库等等

数据分析:分布式并行编程模型、机器学习等等

数据可视化:Excel、Echarts、Gephi等等

大数据分析技术很多源于云计算技术。这里主要介绍云计算的三个关键技术:

①虚拟化技术:是指在一台计算机上可以同时运行多个虚拟计算机,每个虚拟计算机上可以安装不同的操作系统。常见的虚拟化技术如VMWare、virtualbox等等。

②分布式存储技术:是指将一个很大的文件分成很多文件块,然后分散存储在不同的机器组成的集群中。如GFS,谷歌的分布式文件系统,以及后面会介绍的HDFS(Hadoop Distributed File System),它是GFS的开源实现。

③分布式计算技术:谷歌公司提出的并行编程模型MapReduce,可以把一个大的数据集切分成很多小的数据集,然后分散到不同的机器上同时处理,极大地提高了处理数据的效率。

3. 大数据的应用

大数据已经渗透到社会生活的方方面面,如政府部门、金融行业、互联网行业、电信行业、医疗行业、物流行业、餐饮行业等等。

举例说明:

①政府部门可以利用大数据技术做“舆情分析”,帮助政府部门监测网络舆论,预测话题发展趋势,从而协助政府做决策。

②金融行业中,企业可以利用大数据分析市场行情,判断价格走势和交易点等等。

③互联网、电信等行业,可以利用大数据技术分析用户行为,构建用户画像,基于此做出更满足用户喜好和需求推送和服务。

欢迎扫描二维码关注数据与智能微信公众号,获取更多好内容,我们下次见~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。