transformer,表格内tab

在Transformers渴望自然语言处理和计算机视觉之后，他们现在把目光投向了最大的数据类型：表数据。

本文介绍亚马逊的最新论文TabTransformer。

首先，回答为什么可以将transformer应用于表数据。接下来，我们来看看他们如何处理表单数据。

那么就开始吧：卡曼，变形出发！

为什么可以将Transformers应用于表数据呢？ transformer最初是作为语言建模的方法被提出的。那么，表数据是语言吗？我觉得把普通表格和人类的语言进行比较很奇怪。

事实上，统计模型不关心我们的感觉。

他们关心的只是表示数据的统计属性。这里表示表数据和语言有很多相同的属性。从某种意义上说，分类表数据是超结构化语言的子集。

假设每行是“语句”，每列的值是“单词”或标记。从语言向表数据的追加制约为以下：

这些语句都是固定长度的：每行有相同数量的列。

单词的顺序并不重要，但在定义表语言时达成了一致。重要的是语言的真正顺序。

在每个位置，适用于一个单词的值是固定的，每个单词的值都不一样。每个单词都是分类的特征。使用普通语言，您可以选择词典中的所有单词，也可以根据需要创建新单词。

事实证明，这些限制没有限制Transformers的使用。事实正好相反。

如果令牌顺序不重要，则Transformers会更完美。简化了模型。现在可以省去原论文的位置代码步骤了。

这也解释了递归神经网络(RNN )不能很好地处理表数据的理由。 rns本身使用令牌的顺序性和位置。

下图显示了TabTransformer的模型体系结构：

因此，我同意至少在表单数据中尝试Transformers是有意义的。现在，我们来看一下与其他表数据模型的比较。

Transformers的三个优点模型特征与上下文嵌入的交互

许多列表“语言”存在有意义的特性的相互作用。一个属性的值会影响另一个属性的解释方式。

决策树具有连续的决策过程，因此可以自然地对这些相互作用进行模型化。由于树中更深层的决策取决于从根开始的所有以前的决策，所以以前的特征值会影响当前特征的解释。

其他模型(如线性支持向量机)无法捕获这些交互。

在自然语言中，这个概念(称为一词多义)也很重要。正如英国语言学家寂寞害羞的人所说：

“你应该根据语言的上下文来认识这一点。 ”

因此，transformer使用多头自我注意机制显式地建模令牌的交互。这样，模型就生成了上下文的嵌入。

DeepEnFM的研究者是第一个解决多头注意表数据中特征交互问题的研究者。

使用了强大的半监督学习技术

在关于TabTransformer的文章中，作者指出可以从自然语言处理中复制两种强大的半监督训练技术。

第一个是BERT介绍的技术，被称为掩蔽语言建模。与语言模型一样，还可以通过屏蔽输入语句中的标签和学习预测掩码标签来训练表数据上的transformers。

二是基于ELECTRA相关论文的学习技术。这是“令牌替换检测”。他们不是隐藏功能，而是用替代类别代替。然后，训练TabTransformer以预测更换了哪些功能。

处理缺失和嘈杂的数据

transformers的最后一个优点是在处理缺失和噪波特征方面很出色。这些来自TabTransformer的图表显示了MLP和transformers的比较。

由于transformers使用上下文嵌入，因此可以从上下文中提取信息以修改丢失或嘈杂的数据。

MLP还可以学习嵌入，但不能为向量方向的功能交互建模。虽然体系结构限制为逐位交互，但会降低性能。

结论TabTransformer打开了代表学习天堂的大门，同时与基于树的集成模型的性能相一致。 MLP无法提供这一点。

让我们看看接下来的几个月里会有什么！

论文地址： tab transformer : tabulardatamodelingusingcontextualembeddings https://arxiv.org/pdf/2012.066678.pdf

作者： Jakob Cassiman

deephub翻译集团