openapi技术栈(技术栈是指什么)

更多大数据架构和实践经验，欢迎关注大数据与机器学习，期待与您共同成长！

大数据从2009年开始进入人们的视野，就像所有新技术的发展一样。经过一波炒作，已经从风口回归理性发展。我们可以看到，随着IOT技术的发展和成熟，以及5G业务的全面铺开，数据规模将持续增长。

新技术网点AI、区块链、RPA的发展也离不开大数据技术。大数据技术将作为通用技术应用于各个角落。与此同时，大数据技术的发展也从解决数据规模问题转向如何更高效地消费大数据。实时数据和云迁移已经成为大数据圈的新挑战。我们选取了一些能够应对这些新挑战的代表性技术栈，绘制了如下大数据圈生态图，并在下面介绍了主流技术栈：

OLAP分析引擎：阿帕奇麒麟

Apache Kylin是一个开源的分布式分析引擎，它提供基于Hadoop/Spark的SQL查询接口和多维分析(OLAP)能力，支持超大规模数据。Apache Kylin只需要三个步骤就可以在非常大的数据集上实现亚秒级查询：

在数据集上定义星形或雪花形模型，并在定义的数据表上构建多维数据集。使用标准的SQL通过ODBC、JDBC或RESTFUL API进行查询。Kylin提供了与许多数据可视化工具集成的能力，例如Tableau、PowerBI等。

麒麟官方社区推荐必读：

两者都是HBase上的SQL引擎。麒麟和凤凰有什么区别？

麒麟在携程数十亿数据分析中的实践

从ES到Kylin，斗鱼客户端性能分析平台的进化之旅

如何在1秒内准确复制大数据？

想做大数据实时分析？看看麒麟是怎么解决的。

新一代大数据计算引擎：Apache Flink

ApacheFlink是一个开源的分布式大数据处理引擎，可以对有限数据流和无限数据流进行有状态计算。Flink在流处理方面具有绝对优势，提供高吞吐量和低时延的计算能力，保证数据准确性的精准一次语义，保证业务快速响应的亚秒级处理延迟，成为阿里巴巴、腾讯、华为、易贝、字节跳动、滴滴、美团点评、字节跳动等知名公司搭建流处理平台的首选。

Flink官方社区推荐必读：

如果你也想做实时计数.

Flink客户端操作的五种模式

Flink状态管理和容错机制

Flink SQL编程实践

Flink运行时的核心机制分析

下一代云原生分布式流数据平台：阿帕奇脉冲星

阿帕奇脉冲星起源于雅虎。2016年开业。2018年正式成为顶级Apache项目，集消息、存储、功能轻量级计算于一体的流媒体数据平台。

技术上采用行业领先的计算与存储分离架构，采用Apache BookKeeper作为其分段存储，配合分层存储。它具有“高吞吐量、低延迟、强分布式一致性、瞬时弹性容量扩展、无平衡、高可用性故障自恢复”等核心特性。

脉冲星官方社区推荐必读书目：

阿帕奇脉冲星介绍

阿帕奇脉冲星：从消息系统到流原生平台

阿帕奇脉冲星项目和社区共享

阿帕奇脉冲星跨区域复制机制介绍

弗林克和脉冲星的批量流融合

开源非关系分布式数据库：Apache HBase

Apache HBase是一个高度可靠、高性能、面向列和可扩展的分布式数据库。它是Google BigTable的开源实现，主要用于存储非结构化和半结构化的松散数据。HBase的目标是处理非常大的表，它可以用廉价的计算机集群通过水平扩展的方式处理由超过10亿行数据和数百万列元素组成的数据表。

HBase的官方社区推荐必读内容：

再谈糖化血红蛋白酶的八种应用场景

HBase原理| h base内存管理的MemStore演化理论

HBase抗战总结|阿里巴巴HBase回忆录高可用性八年抗战

HBase练习|说不哭，但是HBase 2.0真的很容易用来哭。

共享|构建企业级数据处理

开源分布式NoSQL数据库系统

Apache Cassandra最初由脸书开发，并于2008年开放。它结合了谷歌BigTable的数据模型和亚马逊Dynamo的全分布式架构，表现出了良好的可扩展性和性能。在数据库排名“DB-Engines排名”中，它在宽列存储模式的数据库中排名第一，也被苹果、易贝、网飞、360、饿了么等国内外知名公司广泛使用？它是目前流行的分布式结构化数据存储方案。

Cassandra官方社区推荐必读：

一篇关于阿帕奇卡珊德拉是什么的文章。

Apache Cassandra快速入门指南

谁说不是火？-卡珊德拉背后价值数百亿的力量

选择卡珊德拉而不是DynamoDB的五个原因

你对卡珊德拉的一些误解