阿里云组件列表,大数据组件介绍

大数据使用场景E-MapReduce 产品当前主要满足企业的以下大数据场景：批处理场景该场景对磁盘吞吐和网络吞吐要求高，处理的数据量也大，但对数据处理的实时性要求不高，您可选用 MapReduce、Pig、Spark 组件。该场景对内存要求不高，选型时您需要重点关注大作业对 CPU 和内存的需求，以及 Shuffle 对网络的需求。
Ad-Hoc 查询数据科学家或数据分析师使用即席查询工具检索数据。该场景对查询实时性、磁盘吞吐和网络吞吐要求高，您可选用 E-MapReduce 的 Impala 和 Presto 组件。该场景对内存要求高，选型时需要考虑数据和并发查询的数量。
流式计算、高网络吞吐和计算密集型场景选用 E-MapReduce Flink、Spark Streaming 和 Storm 组件。消息队列该场景对磁盘吞吐和网络吞吐要求高，并且内存消耗大，存储不依赖于 HDFS，您可选用 E-MapReduce Kafka。为避免对 Hadoop 造成影响，E-MapReduce 将 Kafka 与 Hadoop 分为两个集群。
数据冷备场景该场景对计算和磁盘吞吐要求不高，但要求冷备成本低，推荐使用 EMR D1 实例做数据冷备，D1 本地盘实例存储成本为 0.02 元/月/GB。