世界上五种顶级思维,中国最顶级的五所医院

五大顶级数据体系结构

自像AWS这样的公共云产品开发大数据分析功能以来，中小企业通过挖掘海量数据实现了只有大企业才能做到的事情，至今已有大约10年了。这些包括网络日志、客户购买记录等，付费提供低成本的商品集群。在过去的十年中，这些产品蓬勃发展，从实时“亚秒延迟”流分析，到用于分析批处理模式工作的企业数据仓库。企业数据仓库可能需要几天或几周才能完成。

本节介绍了用于大数据堆栈的五种最有用的体系结构，以及每个体系结构在了解和权衡方面的优势。此外，还介绍了成本$ - $$$$$的规模、使用时间、热门产品以及各体系结构的技巧和技巧。

| |五大数据体系结构

这里没有特别的顺序。用户在AWS公共云旅途中可能遇到的五种顶级大数据架构包括：

流管理-允许捕获和分析任务关键型实时数据。这些数据可能会爆炸性地出现在用户面前。

通用(或特定)批处理群集-在可扩展且经济实惠的群集中提供通用存储和计算功能，并可执行其他四种体系结构的所有功能。

NoSQL引擎-支持架构师“3V”-高速、大容量和基础数据的多样性/可变性。

企业数据仓库(edw ) -允许组织为多年历史数据维护单独的数据库，并对该数据执行各种长期操作分析。

就地分析-用户可以将数据“就地”存储在成本较低的存储引擎上，并对数据执行高性能专用查询，而无需创建单独的昂贵“集群”。

(1)流媒体

流媒体解决方案由以下几个因素定义：

任务关键型数据-即使交易丢失，也会给用户带来灾难性的后果。

负载中爆炸性尖峰——的互联网基础架构可能会从完全静音状态同时转移到其中一个通话设备。

实时响应-高延迟响应对用户来说可能是灾难性的。

这里有很多现实世界的例子，他们不断将汽车位置从特斯拉电动车(基本上是移动的4G设备)传送到数据中心，让司机知道下一个充电桩位于何处。另外，Sushiro是人们喜欢的日本高度自动化的寿司专卖店。 Sushiro所做的是将RFID传感器放在每个寿司盘的底部，寿司传送带上的传感器跟踪每个盘的动作，将数据点发送到AWS Kinesis，其后端根据仪表板的更新，显示“即将过期变质的食物。通过使用流媒体技术，这个连锁店不仅提供了上述实时有效的推荐，还提供了这一改进的可用性

Sushiro是一个很好的例子，因为它满足了流媒体的所有三个要求。那个仪表板现在是业务运营中不可缺少的。

成本： $$ - $$$$$ ()通常是RAM密集型) ) )。

适应性：关键任务数据、负载激增和实时响应。用户需要构建KPI的实时仪表板。

注意：构建和维护独立的流媒体解决方案需要成本。扩张可能很困难。特别是在用EC2构建的情况下。失败对企业来说可能是灾难性的，但很少有产品能提供故障保护，如复制优化、备份或灾难恢复。

热门产品： Kinesis、Kafka、基于EC2、Spark Streaming、基于EC2、Storm。

提示和诀窍：作为初学者使用Kinesis (使用方便、小巧、低成本)。许多组织都在迁移到基于EC2的Kafka (如果只需要流媒体)或Spark Streaming (流媒体)以获得更好的控制，从而降低大量成本。这是AWS中为数不多的托管任务，像Kinesis这样的托管服务最终要比基于EC2的Kafka解决方案花费更多。

(2)一般)或特定)的批次丛集

使用Hadoop/Spark这样的系统时，用户在以尽可能低的成本批量分析数据时可能会遇到许多问题，包括可扩展、低成本的(商用硬件和开源软件)存储和计算机

Hadoop技术非常成熟，它提供了非常丰富的软件生态系统，可以利用这些常见的计算和存储资源提供从数据仓库到流媒体，甚至是NoSQL的所有内容

Spark现在可以在Hadoop上运行。 Spark具有自己的可扩展框架，能够以低延迟(kkdbbt )提供所有这些功能。也适用于流媒体和NoSQL。

成本： $ - $$$$ ()高度依赖内存需求) ) ) ) ) )。

适用性：最小成本、最大灵活性。如果您希望在一个群集上完成所有任务，并从内部Hadoop或Spark部署进行迁移，这是机器学习的理想选择。

注意：虽然全能系统很少能做好每一件事，但使用Spark和为每项工作定制的群集可以大大减轻工作负担。

热门产品：托管服务，也运行Spark )、云安全(Cloudera )、EC2 )、主机工作(Hortonworks ) )使用EMR作为托管服务，EC2 )。

提示和诀窍：在S3内存库中长期存储源数据，构建集群，并

根据需要将数据加载到集群中，然后在分析任务完成后立即关闭所有数据。这实际上正是默认情况下EMR的工作原理，但即使使用的是Cloudera或Hortonworks(现在功能几乎相同)，也可以轻松编写上述所有内容。利用EC2现场实例可以节省80%-90%的成本，并检查自己的分析，以便可以向上或向下旋转集群。以利用成本最低的spot窗口。

　　(3)NoSQL引擎

　　Velocity(并发事务)在这里特别重要，这些引擎被设计为处理任意数量的并发读写。虽然其他系统通常不能用于最终用户(需要低延迟响应)和员工分析团队(可能会使用长时间运行的查询锁定多个表)，同时，NoSQL引擎可以扩展以适应一个系统的两个主服务器。一些开发允许以低延迟方式实时加入和查询该数据。

　　成本：$$ - $$$(通常为内存密集型)

　　适用性：“3V”问题。简单和/或快速变化的数据模型。需要构建KPI的实时仪表板。

　　警告：必须放弃交易和丰富多样的SQL。由于它不使用SQL，因此无法使用Tableau和Microstrategy等可视化工具直接查询数据。扩展(尤其是添加新节点和重新平衡)可能很困难，并且会影响用户延迟和系统可用性。

　　受欢迎的产品：DynamoDB(托管服务)，Neptune(托管服务，目前仍处于测试阶段)，Cassandra(基于EC2)，CouchDB(基于EC2)和HBase(通过EMR作为托管服务，基于EC2)。

　　提示和技巧：努力采用AWS管理的服务DynamoDB，而不是配置EC2并加载第三方系统。定期修剪最终用户DynamoDB表，并在这些历史表上创建每周或每月的表。使用Dynamic DynamoDB“自动调整”配置的容量，使其始终满足消耗。使用DynamoDB Streams可以对客户服务取消等关键事件进行实时响应，或者在第二个区域提供备份。

　　(4)企业数据仓库(EDW)

　　企业数据仓库(EDW)与此处提到的其他系统截然不同。它提供了人们称之为“OLAP”(在线分析处理，可以支持来自内部用户的一些长时间运行的查询)与“OLTP”(在线事务处理，可以支持来自最终用户的大量读取和写入)功能，如Oracle的RDBMS或MySQL。当然，可以使用OLTP系统作为企业数据仓库(EDW)，但是大多数人都将OLTP数据库集中在最近用户的低延迟，最近事件(如“跟踪上周的订单”)需求和定期(通常是每天)窗口更旧数据输出到OLAP系统，业务用户可以在数月或数年的数据中运行长时间的查询。

　　这些OLAP系统使用诸如列式存储、数据非规范化(创建具有几乎无限维度的“数据立方体”)等策略，并提供RDBMS级ANSI 92 SQL依从性，这意味着可以完全访问SQL功能，并且可以定制Tableau等可视化工具直接与他们合作。

　　成本：$$ - $$$$$(通常需要大量节点来存储和处理大量数据)。

　　适用性：如果希望专门针对业务价值分析数据或构建KPI的实时仪表板。

　　警告：确保团队了解OLAP和OLTP之间的区别，并确保他们以正确的方式使用每个OLAP和OLTP。

　　?提示和技巧：与EMR/Hadoop一样，只在需要时启动集群，将源数据保存在S3存储桶中(这实际上是Redshift默认工作的方式)。标记集群，以便用能够以自动方式快速识别和关闭未使用的容量。考虑保留以控制成本。真正了解可用的不同节点类型(高存储、高吞吐量)以便利用每个节点类型。采用本机加密，因为它可以将性能降低多达20%-25%。通过O'Reilly课程深入了解Redshift，或考虑通过出色的“数据仓库”课程进行面对面培训，该课程几乎完全涵盖Redshift。

　　(5)就地分析

　　几年前，Presto通过提供高性能的数据分析改变了游戏规则，而无需将数据从原生的、低成本的长期存储中移出。其最终结果是，可以简单地运行查询，而不是必须为昂贵的EMR或Redshift集群支付全部费用。而是只按使用的内容收费。

　　此外，人们需要很多时间来尝试选择(然后管理)EMR或Redshift集群的正确节点和节点数。采用Presto，人们不再知道也不关心这种差别，而这一切都在用户需要的时候起到作用。

　　最后，Presto支持RDBMS级别的ANSI-92 SQL兼容性，这意味着所有可视化工具都可以直接使用它，具有的SQL背景可以在ad-hoc查询中全面使用。

　　费用：$ - $$

　　适用性：成本极低。没有任何管理。可以作为低成本、中等性能的企业数据仓库(EDW)。它不需要将数据复制到第二个系统。大型连接和复杂分析效果很好。

　　警告：需要最低延迟。为了获得不错的性能，可能会使用序列化格式Parquet、压缩、重新分区等重新格式化存储的数据。可能需要多轮查询调整和/或重新格式化才能获得正确的结果。目前不支持UDF或事务。

　　热门产品：AWS Athena(用于查询S3数据的托管服务)，EMR(托管服务-可以自动安装Presto)，自我管理的Presto(基于EC2–用户永远不想在AWS中执行此操作)。

　　?提示和技巧：只需使用Athena。利用AWS Glue构建ETL管道，以获取原始数据，并将其重新格式化为S3或Athena可以更有效地使用的内容。使用S3生命周期策略将原有的数据移动到低成本的归档存储(如Glacier)。

　　|| 把它们放在一起

　　通过了解将在公共云中运行的五个顶级大数据架构，用户现在可以获得有关最佳应用位置的可操作信息，以及潜伏的位置。

　　一旦用户开始在AWS公共云中构建大数据架构，将很快了解到更多的架构，并且在很多情况下，企业可能会最终同时使用上述所有内容，可能使用Kinesis将客户数据流媒体传输到DynamoDB和S3。用户可能偶尔会在该源数据上启动EMR(进行某些机器学习)或Redshift(分析KPI)集群，或者可以选择以可以通过AWS Athena就地访问的方式格式化数据，让它像企业数据仓库(EDW)一样发挥作用。

　　具有执行TMTOWTDI的能力是一件好事，AWS公司努力提供最适合用户需求的服务。如果用户从头开始，在AWS认证的全球知识培训课程中花费三天时间将可以提供满足其需求的服务，并让用户尽快开始运营，并且顺利实施。

转载于:https://www.cnblogs.com/jinsexiaomifeng/p/9583320.html