常用的灭火方法有几种,常见的说明方法有哪几种

大数据体系结构

数据分析工作虽然隐藏在业务系统的背后，但具有非常重要的作用，数据分析的结果对决策、业务发展具有重要的作用。随着大数据技术的发展，数据挖掘、数据搜索等专有名词的曝光度越来越高，但在像Hadoop系列这样的大数据分析系统普及之前，数据分析工作已经有了很大的发展，特别是以BI系统为中心的数据分析

在BI系统中，可以看到核心模块是Cube，Cube是更高级的业务模型抽象，在Cube上可以进行向上钻取、向下钻取、切片等各种操作。大多数BI系统都基于关系数据库，关系数据库使用SQL语句进行操作，而SQL的多维操作和分析表达能力相对较弱，因此Cube有自己的查询语言MDX，MDX表达式具有更强的多维表达能力以Cube为核心的分析系统基本上占据了数据统计分析的半壁江山，大多数数据库服务厂商直接提供BI包服务，很容易构建Olap包，但是BI的问题也随着时间的推移而突出

BI系统以分析从业务数据中生成的高密度、高价值的结构化数据为中心，对图像、文本、音频的存储、分析等非结构化数据和半结构化数据的处理非常无能为力。由于数据仓库是一种结构化存储，数据从其他系统进入数据仓库通常称为ETL过程。 ETL的行为和业务紧密联系在一起，通常需要一个专门的ETL团队与业务合作，决定如何清洗和转换数据。随着异构数据源的增加，例如视频、文本、图像等数据源存在的情况下，为了分析数据的内容访问数据仓库，需要非常复杂的ETL程序，ETL变得巨大化、臃肿。过多的数据量会导致性能瓶颈，在TB/PB级别的数据量上表现出明显的辛苦。数据库范式等约束规则是为了着力解决数据冗余问题，保障数据的一致性，但对于数据仓库来说，不需要修改数据和保障一致性，原则上数据仓库的原始数据都是只读的。通过ETL动作进行数据的事前假设和处理，由于机器学习部获取的数据是假设后的数据，所以效果不好。例如需要使用数据仓库进行异常数据挖掘时，需要明确定义数据入库到ETL时需要提取的特征数据。否则无法结构化入库，但往往需要根据异构数据提取特征。在一系列问题中，以Hadoop系统为代表的大数据分析平台逐渐显示出其优越性，围绕Hadoop系统的生态圈也在不断壮大，Hadoop系统传统数据仓库的瓶颈问题从根本上体现出来

从数据仓库升级到大数据架构，没有平稳的演进，基本上等于推翻了重做。由于大数据下的分布式存储强调了数据的只读性质，像Hive这样的存储方式都不支持update，HDFS的write操作也不支持并行处理，因此这些特性存在局限性基于大数据架构的数据分析平台侧重于解决传统数据仓库数据分析的瓶颈。

分布式计算:分布式计算的思路是让多个节点进行并行计算，并强调数据的本地性，尽可能减少数据的传输。例如，Spark以RDD的形式表示数据的计算逻辑，对RDD进行一系列优化可以减少数据的传送。分布式存储:分布式存储是指将一个大文件分成n个文件，每个文件独立放置在一台机器上。其中涉及复制、切片和管理文件等操作。分布式存储的主要优化行为就在这里。检索和存储的结合:在早期的大数据组件中，保存和计算相对简单，但现在为了更有效地进行检索和计算，越来越多的人倾向于对保存做更多的修改。计算的效率不仅仅是加快数据的检索和读取。因此，当前的保存不仅仅是保存数据的内容，还会添加索引信息等很多元信息。 parquet和carbondata就是这样的思想。一般来说，目前以Hadoop系统为中心的大数据体系结构包括：

传统大数据架构

之所以称为传统的大数据体系结构，是为了解决传统BI的问题。简单来说，数据分析的业务没有发生任何变化，但如果系统因数据量、性能等问题而无法正常工作，需要升级或改造，我们可以解决这个问题。您可以看到，在保持ETL行为的同时，通过ETL行为将数据存储在数据存储中。

优点:简单易懂，对BI系统来说基本的想法没有改变。唯一改变的是技术选择，将BI的组件替换为大数据体系结构。

缺点:对于大数据来说，没有比BI下更完整的Cube体系结构了。虽然现在有kylin，但是kylin的局限性非常明显，BI下的Cube的灵活性和稳定性远远没有，所以对业务支持的灵活性还不够。因此，对于存在大量报告或使用复杂钻头拍摄的场景，需要进行太多的手动定制

适用场景:数据分析需求仍然以BI场景为中心，但由于数据量、性能等问题无法满足日常使用。

流式架构

在传统的大数据中

架构的基础上，流式架构非常激进，直接拔掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了ETL，转而替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。虽然有一个存储部分，但是该存储更多的以窗口的形式进行存储，所以该存储并非发生在数据湖，而是在外围系统。

优点：没有臃肿的ETL过程，数据的实效性非常高。

缺点：对于流式架构来说，不存在批处理，因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景：预警，监控，对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构，大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性，而离线则以批处理方式为主，保障了最终一致性。什么意思呢？流式通道处理为保障实效性更多的以增量计算为主辅助参考，而批处理层则对数据进行全量运算，保障其最终的一致性，因此Lambda最外层有一个实时层和离线层合并的动作，此动作是Lambda里非常重要的一个动作，大概的合并思路如下：

优点：既有实时又有离线，对于数据分析场景涵盖的非常到位。

缺点：离线层和实时流虽然面临的场景不相同，但是其内部处理的逻辑却是相同，因此有大量荣誉和重复的模块存在。

适用场景：同时存在实时和离线需求的情况。

Kappa架构

Kappa架构在Lambda 的基础上进行了优化，将实时和流部分进行了合并，将数据通道以消息队列进行替代。因此对于Kappa架构来说，依旧以流处理为主，但是数据却在数据湖层面进行了存储，当需要进行离线分析或者再次计算的时候，则将数据湖的数据再次经过消息队列重播一次则可。

优点：Kappa架构解决了Lambda架构里面的冗余部分，以数据可重播的超凡脱俗的思想进行了设计，整个架构非常简洁。

缺点：虽然Kappa架构看起来简洁，但是施难度相对较高，尤其是对于数据重播部分。

适用场景：和Lambda类似，改架构是针对Lambda的优化。

Unifield架构

以上的种种架构都围绕海量数据处理为主，Unifield架构则更激进，将机器学习和数据处理揉为一体，从核心上来说，Unifield依旧以Lambda为主，不过对其进行了改造，在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后，新增了模型训练部分，并且将其在流式层进行使用。同时流式层不单使用模型，也包含着对模型的持续训练。

优点：Unifield架构提供了一套数据分析和机器学习结合的架构方案，非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点：Unifield架构实施复杂度更高，对于机器学习架构来说，从软件包到硬件部署都和数据分析平台有着非常大的差别，因此在实施过程中的难度系数更高。

适用场景：有着大量数据需要分析，同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构，当然还有非常多其他架构，不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展，以上几种思想或许终究也会变得过时。