首页 > 编程知识 正文

阿里云组件列表,大数据组件介绍

时间:2023-05-04 09:43:30 阅读:220664 作者:2176

大数据使用场景E-MapReduce 产品当前主要满足企业的以下大数据场景:批处理场景该场景对磁盘吞吐和网络吞吐要求高,处理的数据量也大,但对数据处理的实时性要求不高,您可选用 MapReduce、Pig、Spark 组件。该场景对内存要求不高,选型时您需要重点关注大作业对 CPU 和内存的需求,以及 Shuffle 对网络的需求。
Ad-Hoc 查询数据科学家或数据分析师使用即席查询工具检索数据。该场景对查询实时性、磁盘吞吐和网络吞吐要求高,您可选用 E-MapReduce 的 Impala 和 Presto 组件。该场景对内存要求高,选型时需要考虑数据和并发查询的数量。
流式计算、高网络吞吐和计算密集型场景选用 E-MapReduce Flink、Spark Streaming 和 Storm 组件。消息队列该场景对磁盘吞吐和网络吞吐要求高,并且内存消耗大,存储不依赖于 HDFS,您可选用 E-MapReduce Kafka。为避免对 Hadoop 造成影响,E-MapReduce 将 Kafka 与 Hadoop 分为两个集群。
数据冷备场景该场景对计算和磁盘吞吐要求不高,但要求冷备成本低,推荐使用 EMR D1 实例做数据冷备,D1 本地盘实例存储成本为 0.02 元/月/GB。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。