首页 > 编程知识 正文

大数据核心技术(数据科学和大数据技术)

时间:2023-05-06 00:29:34 阅读:101944 作者:2183

00-1010从数据的生命周期来看,可以分为以下几个阶段:数据收集、数据处理、数据存储和数据分析。因为不同的存储、采集、处理和分析的方法和工具不同,先说数据存储。

00-1010说到大数据技术,很多人单方面认为是Hadoop生态系统,我们可以分为以下几个方向:

基于MPP架构的数据库集群。MPP框架大规模并行处理的引擎包括clickhouse、冷艳的哈密瓜、德鲁伊、青梅、TiDB、impala、presto,其中impala和presto是只负责计算,不负责存储的引擎。可以想象,这两个引擎对CPU和内存的依赖程度极高,每个引擎都有各自的优缺点,后面的文章会详细说明。基于MPP架构的搜索引擎。常用的是ELASTICSEARCH,适合搜索单主题数据,不适合连接多主题数据。Hadoop生态系统Hadoop集群有20多个节点,因此存储和计算能力可以发挥一定的优势。如果只有三四个节点,测试开发还可以。让我们在网上休息一下。云存储产品。比如AWS的S3,阿里巴巴云的OSS,一般这些云服务提供商的MPP架构计算产品都可以读取这类数据进行分析计算,比如阿里巴巴云的MaxCompute就可以读取OSS数据。00-1010数据库收集。收集Hadoop,Sqoop工具很流行,还可以订阅binlog定期上传数据到HDFS。如果同步到MPP数据库,市场上没有合适的工具,可以自己开发,订阅binlog数据,同步到MPP数据库。日志收集。使用的工具是水槽和日志。消息数据收集。比如kafka消息中间件,常用的工具是Flume,一般我们用的是Akka stream alpakka工具包。00-1010结构化数据录入hdfs后,一般采用hivesql、spark、flink对数据进行清理、完成和处理,然后进行数据分层,也可以采用ozzie这样的调度系统。

如果使用MPP引擎来存储和处理数据,通常是在数据输入之前完成的。流媒体数据处理是比较好的选择,比如spark流媒体、kafka流媒体、akka流媒体等。

00-1010报表分析例如基于hive数据仓库T ^ 1的离线计算,第二天会显示报表场景。挖掘分析,这种分析相对更高级,利用数据挖掘算法对数据处理后的指标、语义、特征进行分类、聚合或预测,一般活在Hadoop生态系统中。OLAP的分析可以分为两种。首先,MOLAP适用于固定的业务场景,数据定期更新。用户定义计算逻辑后,会在每天的空闲时间预先计算出总额,最后显示计算结果或根据计算结果进行相应的处理。常见的技术包括hive sql和kylin。其次,ROLAP适用于低/高并发的Adhoc查询场景。数据是准实时更新的,可能会有大量的主题数据加入。常见的技术有冷艳的黑斑羚、哈密瓜等。实时分析,基于流数据的分析火花流、flink、AKKastream等;基于准实时数据更新的MPP架构引擎,如冷艳的哈密瓜、黑斑羚库都。

哪些技术

如果企业数据不足以使用大数据,应该使用什么技术?通常,提供解决方案的公司会为您推荐一套大数据解决方案。事实上,如果你自己权衡,它们可能不适合你。用坦克杀蚊子太浪费了。

任何解决方案实施的第一步都是数据收集和对接。对于少量数据,通常期望数据是实时的,目标地址存储通常是关系数据库,比如mysql。数据来源无非如下:

接口提取消息订阅数据库提取文件提取提取数据后,下一步是处理,如转换、填充、过滤等。最后,数据库被删除,邦邦邦邦!这就是ETL。

那么,有没有一种技术可以方便地做到这三点,并保证准实时性呢?是的,我推荐一个已经被很多项目测试过的成功的解决方案,基于akka stream。我们稍后再谈详细设计。如果你有紧急需求,可以和我私下谈谈。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。