首页 > 编程知识 正文

7号仓库,数据仓库项目实战

时间:2023-05-05 22:30:07 阅读:12968 作者:877

一方面,Greenplum的背景时间回到2002年,互联网行业经过近十年的发展,数据量处于快速增长期:

1、传统的主机计算模型在海量数据面前,除了成本高外,CPU计算和I/o吞吐量不能满足海量数据的计算需求;

2、传统数据库大多基于SMP帧,纵向扩展(scale-up )模式成为瓶颈。

3、分布式存储和分布式计算理论刚刚提出,谷歌两篇著名论文关于GFS分布式文件系统和MapReduce并行计算框架的理论引起了业界的广泛关注,分布式计算模式是互联网行业

Greenplum是为解决上述问题而开发的支持向外扩展的数据库MPP体系结构的分布式数据存储和并行计算工具。

二、Greenplum架构2.1 Greenplum MPP架构

在介绍Greenplum体系结构之前,请了解背景中的MPP体系结构。 MPP体系结构是指massively并行处理的大型并行进程。 其基本特征是多个SMP服务器通过节点间的互连网络连接,每个节点只访问自己的本地资源(内存、存储等),并且是不完全共享的结构,因此在这种情况下

可见,各segment的硬件内容是独立的,上层通过网络进行通信,Greenplum架构是典型的MPP架构。 主节点维护全局系统目录并提供外部访问入口。 所有业务数据都根据分布式规则存储在Segment节点上。

2.2主高可用性主standby

由于Greenplum的所有并行任务都是在Segment数据节点上完成的,因此Master只负责生成和优化查询计划、发送任务以及协调数据节点进行并行计算。 主节点不会因数据压力而导致资源紧张,从而成为瓶颈。

2.3 Segment高可用性镜像策略

在上次安装初始化过程中,如果ssh协议不可用,则初始化可能会将复制主文件传输到另一个镜像主机,并将错误报告为mirror文件失效,现在我们将详细介绍镜像策略。

Greenplum有两个镜像策略: " group " " spread "。 其中,组模式下每台主机的镜像文件位于以下主机上,所有计算节点形成一个环: 如下图所示

在spread模式下,将每个主机的镜像顺序分布在后续主机上,如下图所示

两者的区别在于可停机的数量和停机后仍处于正常状态的服务的压力。

上图显示了一个示例,在组模式下segment host1锁定后,群集使用segment host2镜像实例作为segment host1主实例的替代,并继续使用群集。 即使segment host1挂起后segment host3挂起,segment host2和segment host4的主实例和镜像实例投掷也支持整个群集的正常使用。

另一方面,在spread模式下断开segment host1后,如果其他3台任意故障,服务无法使用,则整个集群中部分节点将无法访问,发生异常。 例如,segment host2和segment host3切绿不可用,segment host4切蓝不可用。 spread与group相比是一个优势。如果只有一台机器(如segment host1),spread将segment host1的压力平分为segment host2和segment host3,而group模式将所有压力均分为segment host3

镜像模式自动实现故障切换功能。 如何选择镜像模式,需要根据情况进行选择。

gpinitsystem_config初始化文件

# # # # # basenumberbywhichprimmer # numbersarecalculated.replication _ port _ base=43000 # # # basenumberbywhichmirrorfilerereplication numbersarecalculated.mirror _ replication _ port _ base=54000 # # # 文件系统位置(s ) wheremirrorsegmentdatadidition will be created.thenumberofmirrorlocationsmustequalthe # # numberofpration data _ direct ta e Clare-a mirror _ data _ directory=(/data1/mirror/data1/mirror/data2/mirror mirro or declare-a mirror _ data _ directory=(/home/gp admin/gp data/gp data/gpda tam1/home/gp admin/gp data/gpda tam2)

参考文档:

1、Greenplum框架https://gpdb.docs.pivotal.io/5100/admin _ guide/intro/arch _ overview.html

2、镜像模式https://gpdb.docs.pivotal.io/570/admin _ guide/high avail/topics/g-overview-of-segment-mirrrorinior

3、master-slave https://gpdb.docs.pivotal.io/5100/admin _ guide/high avail/topics/g-overview-of-master-g

转载于:https://www.cn blogs.com/Chou 1214/p/9937800.html

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。