00-1010从数据的生命周期来看，可以分为以下几个阶段：数据收集、数据处理、数据存储和数据分析。因为不同的存储、采集、处理和分析的方法和工具不同，先说数据存储。

00-1010说到大数据技术，很多人单方面认为是Hadoop生态系统，我们可以分为以下几个方向：

基于MPP架构的数据库集群。MPP框架大规模并行处理的引擎包括clickhouse、冷艳的哈密瓜、德鲁伊、青梅、TiDB、impala、presto，其中impala和presto是只负责计算，不负责存储的引擎。可以想象，这两个引擎对CPU和内存的依赖程度极高，每个引擎都有各自的优缺点，后面的文章会详细说明。基于MPP架构的搜索引擎。常用的是ELASTICSEARCH，适合搜索单主题数据，不适合连接多主题数据。Hadoop生态系统Hadoop集群有20多个节点，因此存储和计算能力可以发挥一定的优势。如果只有三四个节点，测试开发还可以。让我们在网上休息一下。云存储产品。比如AWS的S3，阿里巴巴云的OSS，一般这些云服务提供商的MPP架构计算产品都可以读取这类数据进行分析计算，比如阿里巴巴云的MaxCompute就可以读取OSS数据。00-1010数据库收集。收集Hadoop，Sqoop工具很流行，还可以订阅binlog定期上传数据到HDFS。如果同步到MPP数据库，市场上没有合适的工具，可以自己开发，订阅binlog数据，同步到MPP数据库。日志收集。使用的工具是水槽和日志。消息数据收集。比如kafka消息中间件，常用的工具是Flume，一般我们用的是Akka stream alpakka工具包。00-1010结构化数据录入hdfs后，一般采用hivesql、spark、flink对数据进行清理、完成和处理，然后进行数据分层，也可以采用ozzie这样的调度系统。

如果使用MPP引擎来存储和处理数据，通常是在数据输入之前完成的。流媒体数据处理是比较好的选择，比如spark流媒体、kafka流媒体、akka流媒体等。

00-1010报表分析例如基于hive数据仓库T ^ 1的离线计算，第二天会显示报表场景。挖掘分析，这种分析相对更高级，利用数据挖掘算法对数据处理后的指标、语义、特征进行分类、聚合或预测，一般活在Hadoop生态系统中。OLAP的分析可以分为两种。首先，MOLAP适用于固定的业务场景，数据定期更新。用户定义计算逻辑后，会在每天的空闲时间预先计算出总额，最后显示计算结果或根据计算结果进行相应的处理。常见的技术包括hive sql和kylin。其次，ROLAP适用于低/高并发的Adhoc查询场景。数据是准实时更新的，可能会有大量的主题数据加入。常见的技术有冷艳的黑斑羚、哈密瓜等。实时分析，基于流数据的分析火花流、flink、AKKastream等；基于准实时数据更新的MPP架构引擎，如冷艳的哈密瓜、黑斑羚库都。

哪些技术

如果企业数据不足以使用大数据，应该使用什么技术？通常，提供解决方案的公司会为您推荐一套大数据解决方案。事实上，如果你自己权衡，它们可能不适合你。用坦克杀蚊子太浪费了。

任何解决方案实施的第一步都是数据收集和对接。对于少量数据，通常期望数据是实时的，目标地址存储通常是关系数据库，比如mysql。数据来源无非如下：

接口提取消息订阅数据库提取文件提取提取数据后，下一步是处理，如转换、填充、过滤等。最后，数据库被删除，邦邦邦邦！这就是ETL。

那么，有没有一种技术可以方便地做到这三点，并保证准实时性呢？是的，我推荐一个已经被很多项目测试过的成功的解决方案，基于akka stream。我们稍后再谈详细设计。如果你有紧急需求，可以和我私下谈谈。

大数据核心技术(数据科学和大数据技术)

哪些技术