大数入门在哪看,大数据处理

【需求驱动】

一切学习都从需求开始，学习什么知识都要取得更多的成果，首先要弄清它存在的意义和价值

为什么要学习大数据？独立的瓶颈是什么？

单机的瓶颈：IO、内存

从Java的面向对象思维，到微服务倡导的高聚集低耦合，为了合理利用资源，每个小服务都单独部署，服务的配置根据其服务业务量进行相应的升级和降级一般来说，小公司的独立配置不是很贵。因此，当某项需求产生大量数据时，我们需要及时实时地处理这些数据。独立瓶颈瞬间暴露，各种卡【IO】和内存泄漏频发。此时，大数据技术尤为重要，各种分布式计算、流媒体计算和分布式治理计算应运而生。

以实际情况为例，1TB的发票数据需要找出某公司某类消费产生的发票数据

单独处理时，试图从读取到内存中的内容开始处理显然是不现实的。单独处理时，最愚蠢的方法是逐行阅读，或者逐行阅读【100M】，找出该公司的发票并写入另一个文件。但是，如果数据量每天以1TB的增量增长，其中需要复杂的逻辑计算。这如果以单体计算的话，之前生成的数据还没有计算出来，之后的数据又来了，可能很难实现需求。这是因为，想要在短时间内实现这一需求，只能在空间上改变时间，多个服务器同时计算并总结结果。

学习大数据的几个重点思想：

分而治之

分布式计算（并行计算）

计算向数据移动（因为拷贝数据的成本很高）

数据本地化读取