首页 > 编程知识 正文

增量和全量,数据增量抽取的四种模式

时间:2023-05-06 06:53:50 阅读:191006 作者:3775

使用场景

当一个数据需要存储多份时,会出现一致性问题,所以就需要进行同步,同步分为两种:增量和全量。

全量

简单来说,就是在一定的周期中,把当前系统在周期时间内所有数据复制到目标表/系统这样的同步方式就叫做—>全量

增量

增量同步的前提是全量,然后再更具规则增量同步;

增量的基础是全量,就是你要使用某种方式先把全量数据拷贝过来,然后再采用增量方式同步更新。

增量的话,就是指抓取某个时刻(更新时间)或者检查点(checkpoint)以后的数据来同步,不是无规律的全量同步。这里引入一个关键性的前提:副本一端要记录或者知道(通过查询更新日志或者订阅更新)哪些更新了。
能用全量别用增量

两个系统之间需要同步数据,同步的方法可以分为全量和增量两种形式。多年的经验告诉我,能用全量就别用增量。增量有三个问题

1.数据提供方,很难制作增量包,事无巨细都要记录,稍微记错就全完了2.数据接收方,理解并且实施增量包的逻辑比较复杂3.中间过程一旦出了问题,很难定位

这里为了方便讨论,假设有两个系统,其中系统A拥有全深圳所有纳税人的当月工资,系统B需要从系统A同步这个数据。对于系统A来说,它的数据在不停的变化,但是可以分成三类

1.新增,比如说有毕业生来深圳打工2.删除,比如说有人离职离开深圳了3.变化,比如说有人涨工资了

这个时候,同步数据的方法很难决策,全量同步不合适,数据量太大而且还不值当,毕竟变化的部分比较少。增量同步又怕麻烦,一旦某次同步出问题,很难倒查故障和恢复。

其实,可以有一种折中方案,上不了台面,但是值得尝试。为了方便理解,还是以上面的例子来讨论。

我们知道所有人都有身份证号码,其中有一部分为年月日,表示生日。我们按照生日,在系统A将数据进行分组,这个分组是逻辑上的,不是真实的。如果有个人,工资涨了,生日为1999.9.1,那么系统A就记录分组1999.9.1的数据发生了变化。假设两个系统之间的同步周期是每天同步一次,那么系统A只需要整理这段时间那些分组发生了变化,但是不用记录变化的实际内容。系统B就老老实实将发生变化的分组数据删掉,然后全量同步这些分组的数据。

这个方案,就是赌每天发生变更的数据不会那么巧,波及所有分组,只会有很小的一部分分组发生变化。这样从整体看,只是同步了部分数据,从分组看又是简单的全量同步。这个方案的巧妙之处就是选择合适的分组标准,既要分的足够细,又要足够直接,方便程序处理。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。