首页 > 编程知识 正文

数据表格的图示有几种,抽取数据

时间:2023-05-03 06:14:53 阅读:115304 作者:4806

常见的数据提取模式有四种。 全覆盖提取,全量添加,增量和增量滚动。

假设全覆盖例子第一天源代码库中有100个数据,第二天添加了10个源代码库,则源代码库为110个。 那么,第一天提取:目标库为100个,第二天提取时删除昨天提取的100个,再次提取。 此时,目标库也有110个。

优点:理解简单,数据质量好,适用于小数据量表格。

缺点:大数据量占用资源,且提取速度慢。

结论:全覆盖提取、提取的时间始终与源库数据一致。 封面是先删除再复制的过程。

全部添加例子天的源代码库中有100个数据,第二天的源代码库中添加10个、110个源代码库。 在中,第一天提取100个目标库,第二天提取110个源库中的数据,但不删除昨天的数据。 所以第二天目标库的数据是210条。

优点:可以帮助原始库存历史数据。 源表仅存储当天的最新数据,而多个目标库可以使用每天的最新数据存储作为历史记录库。

缺点:对源数据质量要求极高,如果源数据有问题,提取一次就无法修复。

结论:全部追加提取后,数量会比原始数据多。 不删除添加的过程。

增量例子:提供订单表单,其中包含订单创建时间字段。 目前,该表有100份5月1日至5月6日的数据。 执行增量提取,假设增量字段为订单创建时间。 在中,第一次提取会将100个数据全部复制到数量中,并在此时将目标库中的100个数据复制到数量中。 第二次提取:向源添加10个数据,订单创建日期为5月7日。 此时,目标库的最大日期为5月6日,源库的最大日期为5月7日。 有多个源大于5月6日且5月7日以下的数据被复制。 也就是说,增加的10起。 在这种情况下,目标库中的数据为110天。 第三次提取:源增加10个数据,其中5个数据为5月7日,5个数据为5月8日。 那么,此时提取。 目标库的最大日期为5月7日,而源库的最大日期为5月8日。 有多个复制源大于5月7日且小于或等于5月8日的数据。 也就是说,增加了5瓶。

优点:针对数据增量处理,适用于资源小、历史数据稳定的大数据量表。

缺点:设置复杂,无法更新历史数据,只能手动重新运行。

结论:增量拉动需要增量密钥。 提取根据增量键确定增量数据部分。

增量滚动的增量滚动可以理解为特殊的增量提取。 执行提取时,首先在特定时间范围内删除数据。 然后,运行增量提取的比较逻辑。

优点:可以定期追溯

缺点:设置复杂,无法更新历史数据,只能手动重新运行。

结论:增量滚动提取需要增量键。 提取首先删除特定的时间范围,然后根据增量键确定增量数据的部分。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。