TIDB——HTAP

新一代HTAP数据库选型
HTAP概念的产生

传统数据库OLAP的技术：并行计算，partition，物化视图，列存，bitmap
HTAP核心诉求数据服务的统一
TiDB应对HTAP
1.海量存储允许多数据汇聚，数据实时同步
2.支持多标准SQL，多表关联快速出结果
3.透明多业务模块，支持分表聚合后可以任务维度查询
4.TiDB最大下推机制、以及并行hash join 等算子，决定的TiDB在表关联上的优势
适用于：后台运营系统、财务报表、大屏展现、用户画像

引入Spark来缓解数据中台算力问题

Spark只能提供低并发的重量级查询，在从应用场景，很多中小规模的轻量AP查询，也需要高并发、相对低延迟技术能力，在这种场景下，Spark的技术模型重，资源消耗高的缺点就会暴露
列示存储天然对OLAP友好，将数据放在列示引擎上。劣势（实时更新）

为解决实时更新的劣势引入Raft-Base最佳方案

引入MPP算力

HTAP下一步探索
1.分布式数据库是在大数据规范下提供的HTAP的基础
2.TiDB-Server 最大程度下推算法与Hash Join关键算子提供了基础AP能力
3.借助生态，让Spark跑在TiKV上
4.行列混合引擎，列式引擎提供实时写入能力
5.行列引擎采取Raft-Base replication解决了数据同步效率
6.TiDB-Server统一技术服务
7.MPP解决了技术节点的扩展性与并行计算

数据服务统一：产品内嵌功能的迭代，由一些具体的产品来完成HTAP。整合多个技术栈与产品，并进行数据的连同，形成服务的HTAP

批处理（ETL）离线数仓
批、流结合 Lambda架构
流计算为主的kappa架构

分区、列式存储、并行计算

TiDB关键技术的创新
1.三个分布式系统：分布式KV存储系统、分布式SQL计算系统、分布式的HTAP架构系统
2.自动分片技术是更细维度弹性的基础
全局有序的KV map
按照等长大小策略自动分片（96M）
每个分片是连续的KV，通过Start/End key 来寻址
每个分片seek成本固定
我们称该分片为region，它是复制调度的最小单位

3.Multi-Raft将复制组更离散

Region base Multi-raft的机制，实现了一个表可以同时有多个写入点TiKV的调度机制，可以识别单个节点的物理信息，比如IDC、ffdmy、Host等（机房、机柜、宿主机等），并进行约束与绑定

4.去中心化的分布式事务（两阶段提交）

5.Local read and Geo-partition
6.更大数据容量下的AP与TP的融合
TiDB引入了实时更新的列式引擎，即解决了资源隔离，又提升了AP效率
在列式上引入了MPP模型，实现了SQL join的下推与并行处理
通过Raft-Base replication实现了更时效性
融合了大数据生态，TiSpark
7.数据服务的统一
TiDB的CBO可以采集行列Cost模型进行配置，并同步收集不同引擎的统计信息，统一进行最佳路径选择

TiDB典型应用场景
OLTP Scale 高扩展联机挑战（高并发，计算能力；大数据量，存储能力；高可用性，持续服务能力）
强一致分布式事务
悲观锁+乐观锁
透明分布式
多中心容灾多活
SQL完整支持
弹性扩展调度

Mysql分表：单表性能问题，数据量超过一定大小，Btree高度增加一层IO增加响应时间增加
MySQL分库：写入是昂贵资源，主从库的写入完全依赖于主库的硬件，如果写入超过了上限就要分库
为什么需要中间件

Reai-Time HTAP