首页 > 编程知识 正文

大数入门在哪看,大数据处理

时间:2023-05-03 17:02:46 阅读:170091 作者:4842

【需求驱动】

一切学习都从需求开始,学习什么知识都要取得更多的成果,首先要弄清它存在的意义和价值

为什么要学习大数据? 独立的瓶颈是什么?

单机的瓶颈:IO、内存

从Java的面向对象思维,到微服务倡导的高聚集低耦合,为了合理利用资源,每个小服务都单独部署,服务的配置根据其服务业务量进行相应的升级和降级一般来说,小公司的独立配置不是很贵。 因此,当某项需求产生大量数据时,我们需要及时实时地处理这些数据。 独立瓶颈瞬间暴露,各种卡【IO】和内存泄漏频发。 此时,大数据技术尤为重要,各种分布式计算、流媒体计算和分布式治理计算应运而生。

以实际情况为例,1TB的发票数据需要找出某公司某类消费产生的发票数据

单独处理时,试图从读取到内存中的内容开始处理显然是不现实的。 单独处理时,最愚蠢的方法是逐行阅读,或者逐行阅读【100M】,找出该公司的发票并写入另一个文件。 但是,如果数据量每天以1TB的增量增长,其中需要复杂的逻辑计算。 这如果以单体计算的话,之前生成的数据还没有计算出来,之后的数据又来了,可能很难实现需求。 这是因为,想要在短时间内实现这一需求,只能在空间上改变时间,多个服务器同时计算并总结结果。

学习大数据的几个重点思想:

分而治之

分布式计算(并行计算)

计算向数据移动(因为拷贝数据的成本很高)

数据本地化读取

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。