首页 > 编程知识 正文

ETL数据整合与处理(Kettle),exls表格

时间:2023-05-04 20:45:13 阅读:170754 作者:2138

数据共享对于知识的发展至关重要,但遗憾的是,隐私问题和严格的管理法规(例如,欧洲通用的数据保护条例GDPR )限制了数据共享的充分功能。 合成表数据作为备选方案出现,可以在满足监管和隐私约束的同时实现数据共享。 最先进的表格数据合成器从对抗网络(GAN )的产生引入方法论,处理业界的两种主要数据类型,即连续数据类型和分类数据类型。 本文明确了CTAB-GAN。 这是一种新的条件表GAN架构,可以有效地建模各种数据类型,包括混合连续变量和分类变量。 该模型还解决了实际表数据集数据不平衡和长尾问题,即部分变量在较大值之间具有显著的频率差。 这是通过利用条件GAN的信息损失和分类损失来实现的。 此外,该模型具有新的条件向量,可以有效地编码混合数据类型和数据变量的偏序分布。 CTAB-GAN在数据相似性和分析效用方面按现有技术水平进行了评价。 5个数据集的结果表明,CTAB-GAN的合成数据与所有3种变量的实际数据非常相似,5种机器学习算法的精度高达17%。

论文动机工业数据集(在银行、保险公司、医疗等利益相关者中)提出了多重挑战。 首先,这些数据集组织成表,输入了连续变量和分类变量或贷款所有者的抵押贷款价值等两者的混合。 该值可以是0 (无抵押)或连续的正数。 这里,这种类型的变量称为混合变量。 其次,连续数据变量通常具有广泛的值,可以表示重长尾分布,如信用卡交易金额的统计。 大多数交易必须在0~500美元(也就是说,每天购买食物和衣服),但一定有交易额高的例外。 第三,连续数据变量也可以包含具有多个时滞频率模式的分布。 下面的图2展示了这些问题在利用当今最先进的技术时是如何表现的。

图2 )使用现有的基于GAN的表生成器对工业数据集建模的挑战(a )混合类型,(b )长尾分布和时滞数据

因此,归纳起来,应对以下课题是研究的主要动机。

表数据包含由连续成分和离散成分组成的混合变量。 同样,嵌入在连续变量中的缺少值也可以视为混合变量的分类组件。 连续变量表现出严重的长尾分布,很难真实地建模和再现。 连续变量包含多个图案的时滞频率,这进一步加剧了建模。 我们解决了(I )对连续变量和分类变量的混合数据类型进行编码,(ii )长尾连续变量的有效建模;(iii )提高对不平衡分类变量和时滞连续变量的鲁棒性这一现有技术的局限性的新条件表格数据合成器CTT 另外,CTAB-GAN的两个重要特征是将分类损失引入条件GAN和对条件向量进行新的编码以有效地编码混合变量并处理连续变量的高度偏差分布。

因此,主要贡献可以归纳如下。

新条件引入了分类器来对抗网络,并提供额外的监控以提高ML APP应用的效果。 用新的数据代码和条件向量有效地对连续变量、分类变量和混合变量建模。 轻型数据预处理采用简单的对数变换减轻连续变量长尾分布的影响。 为相关利益攸关方提供有效的数据合成器。 结果

图3 )用CTAB-GAN对工业数据集建模的结果: (a )混合型,(b )长尾分布,以及时滞数据

现在,我们基于前面在第2节中介绍的三个动机案例,来回顾一下CTAB-GAN的性能。

混合变量——上所示的图3.(a )将贷款数据集的变量"抵押"的实际数据与CTAB-GAN生成的数据进行比较。 CTAB-GAN将此变量编码为混合型。 可知CTAB-GAN与现有的最先进技术不同,生成了明确的0值。

长尾连续变量—图3.(b )比较了Credit数据集中“Amount”变量的累积频率图。 这个变量是典型的长尾分布。 可以看到CTAB-GAN出色地恢复了真正的分布。 为了对数据进行预处理,CTAB-GAN明显比最先进的方法更好地学习这种结构。

的梯度多模连续变量-比较了图Adult数据集的连续变量“Hours-per-week”的频率分布。 除40处主峰外,还有许多次峰,该柱的合成极为困难。 但发现CTAB-GAN是一种条件向量的新结构,与传统方法相比,其具有恢复时滞多模分布的能力,因为生成过程被设计为对这种分布更鲁棒。

受数据共享和履行政府法规重要性的启发,提出了基于CTAB-GAN——条件GAN的表数据生成器。 CTAB-GAN通过对混合变量建模,超越了以前的先进方法,为分类变量不平衡和分布复杂的连续变量提供了强大的生成能力。 因此,CTAB-GAN的核心特征是(I )在条件GAN中引入分类器,(ii )混合变量的有效数据编码,和(iii )条件向量的新结构。 针对四个表数据生成器,通过广泛的指标对CTAB-GAN (即最终的ML实用程序、统计相似性和隐私保护)进行了详细评估。 结果表明,与现有前沿技术相比,CTAB-GAN的合成数据具有更高的实用性、更高的相似性和合理的隐私保证。 与所有前沿算法相比,复杂数据集的准确性提高了17%。 CTAB-GAN的巨大成就证明了它在广泛受益于数据共享的APP应用(如银行、保险、制造和电信)中的潜力。

论文地址: arxiv:2102.08369

作者: Aditya Kunar

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。