首页 > 编程知识 正文

TIDB——HTAP

时间:2023-05-06 01:28:28 阅读:240513 作者:2984

新一代HTAP数据库选型
HTAP概念的产生



传统数据库OLAP的技术:并行计算,partition,物化视图,列存,bitmap
HTAP核心诉求数据服务的统一
TiDB应对HTAP
1.海量存储允许多数据汇聚,数据实时同步
2.支持多标准SQL,多表关联快速出结果
3.透明多业务模块,支持分表聚合后可以任务维度查询
4.TiDB最大下推机制、以及并行hash join 等算子,决定的TiDB在表关联上的优势
适用于:后台运营系统、财务报表、大屏展现、用户画像

引入Spark来缓解数据中台算力问题

Spark只能提供低并发的重量级查询,在从应用场景,很多中小规模的轻量AP查询,也需要高并发、相对低延迟技术能力,在这种场景下,Spark的技术模型重,资源消耗高的缺点就会暴露
列示存储天然对OLAP友好,将数据放在列示引擎上。劣势(实时更新)

为解决实时更新的劣势引入Raft-Base最佳方案

引入MPP算力

HTAP下一步探索
1.分布式数据库是在大数据规范下提供的HTAP的基础
2.TiDB-Server 最大程度下推算法与Hash Join关键算子提供了基础AP能力
3.借助生态,让Spark跑在TiKV上
4.行列混合引擎,列式引擎提供实时写入能力
5.行列引擎采取Raft-Base replication解决了数据同步效率
6.TiDB-Server统一技术服务
7.MPP解决了技术节点的扩展性与并行计算

数据服务统一:产品内嵌功能的迭代,由一些具体的产品来完成HTAP。整合多个技术栈与产品,并进行数据的连同,形成服务的HTAP

批处理(ETL)离线数仓
批、流结合 Lambda架构
流计算为主的kappa架构

分区、列式存储、并行计算

TiDB关键技术的创新
1.三个分布式系统:分布式KV存储系统、分布式SQL计算系统、分布式的HTAP架构系统
2.自动分片技术是更细维度弹性的基础
全局有序的KV map
按照等长大小策略自动分片(96M)
每个分片是连续的KV,通过Start/End key 来寻址
每个分片seek成本固定
我们称该分片为region,它是复制调度的最小单位

3.Multi-Raft将复制组更离散

Region base Multi-raft的机制,实现了一个表可以同时有多个写入点TiKV的调度机制,可以识别单个节点的物理信息,比如IDC、ffdmy、Host等(机房、机柜、宿主机等),并进行约束与绑定

4.去中心化的分布式事务(两阶段提交)


5.Local read and Geo-partition
6.更大数据容量下的AP与TP的融合
TiDB引入了实时更新的列式引擎,即解决了资源隔离,又提升了AP效率
在列式上引入了MPP模型,实现了SQL join的下推与并行处理
通过Raft-Base replication实现了更时效性
融合了大数据生态,TiSpark
7.数据服务的统一
TiDB的CBO可以采集行列Cost模型进行配置,并同步收集不同引擎的统计信息,统一进行最佳路径选择

TiDB典型应用场景
OLTP Scale 高扩展联机 挑战(高并发,计算能力;大数据量,存储能力;高可用性,持续服务能力)
强一致分布式事务
悲观锁+乐观锁
透明分布式
多中心容灾多活
SQL完整支持
弹性扩展调度

Mysql分表:单表性能问题,数据量超过一定大小,Btree高度增加一层IO增加响应时间增加
MySQL分库:写入是昂贵资源,主从库的写入完全依赖于主库的硬件,如果写入超过了上限就要分库
为什么需要中间件


Reai-Time HTAP

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。