首页 > 编程知识 正文

产品差异化使购买者对价格差异,一致性质量成本

时间:2023-05-06 03:42:42 阅读:175211 作者:3177

8年来,我做了几仓相关的工作,慢慢地几仓的难点是什么? 也有人说是模型的构筑。 例如,明细层DWD是按照业务流程构建事实表,还是按照主题构建事实表? 还有人说指标的定义。 划分原子指标时,会派生指标。 其实,我个人认为这些都是过程。 站在最终结果导向的角度来看,几仓的痛点在于如何保证数据的一致性、准确性和时效性的统一。 目前,我认为前路应该是流转一体的。

目前,在流程批量分离的情况下,离线数据库在一致性和准确性方面几乎没有什么大的难点,但在时效性方面存在明显的短板。 整个流程的数据完整性,基本上无论是mpp架构的传统几个仓库,还是基于Hadoop的离线几个仓库,其业务逻辑的含义都是按照基本定义的业务逻辑进行的,可以按照标准的建模规范实现完整性准确性方面,采集阶段的数据清洗、后续数据加工、数据校验、以及数据质量DQC都可以通过开发经验、成熟的数据平台来实现。 但基于时效性、技术架构局限性和调度平台瓶颈,将最小粒度定为时间已经显得有些沉重,尤其是由于小文件的快速增长,离线时间任务很痛苦。

实时仓库虽然也有解决时效性问题的,但在一致性和准确性方面,目前还没有太多的方法。 由于目前基于流的计算遵循实时需求,在单个任务中实现从细节数据到最终指标的生产,生产逻辑可能存在差异,数据质量可能存在差异,平台稳定性因时间段而异,所以相同其次是数据的正确性。 在下线几仓投入庞大的人力物力后,如何保障实时几仓数据的准确性是一个巨大的挑战,目前行业比较厉害

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。