多模态融合性能指标,为什么虚拟dom会提高性能

概要介绍首先，在进行多模态融合之前，可以先考虑这些问题

获取多模态表示的方法【learn multimodal representations】进行各模态融合的方法【fusemultimodalsignalsatvariouslevels】多模态应用【multimodal】

融合Fusion简而言之就是信息的综合，将不同模式表达的信息融合为一条信息，得到一个特征向量，利用特征向量执行以下任务；用黑话来说，就是深入挖掘不同模态的信息，将其有效融合形成最终的representation。今天暂且不谈如何挖掘模态信息，今天就来谈谈如何将这些信息融合在一起。

现在主流的融合方式有三种：

基于简单操作的融合Attention-based Fusion双线性融合1 .基于简单操作的融合Simple Operation-based Fusion是指以简单的方式融合来自不同模式的特征向量。例如，矢量拼接、矢量加权相加等。

举个简单的例子，例如在进行基于图像和文本双峰的分类任务时，可以在获取图像和文本的特征向量后，将两个特征向量拼接在一起得到融合向量。

在认为文本中包含信息更重要、图像中包含的信息不那么重要的情况下，定制为文本特征向量的权重为0.7、图像特征向量的权重为0.3，然后对对两者进行加权后的特征向量进行concat或合计

实际上，当我们自己首先做多模式任务时，首先想到的是这个基于简单操作的方式

但是，这种方式存在的问题是在两种模式之后没有进行充分的交互。两者之间的联系比较弱一点

为了解决这个问题，我们，退后，我开始假装b。我们一般在representations或者features concat或者求和之前给它们接几个全连接层，让他们的关系互相学习比较有效。

另一个实践问题是，对于concat来说，保证文本特征向量和图像特征向量的维数是固定的，后面连接全连接高维度也不会出错。

但是，在我们输入的图像数量不一定的情况下，图像特征向量的维数不是一定的。在这种情况下，可以对图像的特征向量进行最大轮询，将图像特征向量固定在一个维度上，然后与文本特征向量进行concat。

进行加权加法运算时，需要确保文本和图像的特征向量的维数相同。这个很好理解。我很少提及这个。

从我个人的经验来看，使用文字多重模式分类这种concat方式，比使用单一文本的效果不会提高2分左右。当然case by case。

2. Attention-based Fusion第一种方法一般是在任务中做基线，简单粗暴地提升，然后任务重复时一般靠attention。在第一种方法中，concat结束后，添加全部连接层学习了两者的关系，但对两者的交互不敏感。

对attention的操作可简单分为：1.Image attention； 2.symmetricattentionforimagesandtext； 3.attentioninabimodaltransformer； 4.other attention-like mechanisms。

详细说明第三点，就是基于TRM的attention。因为TRM太火了。

从两个类别来理解基于TRM的多模式训练模型和基于TRM的微调模型。

基于TRM的多模式预训练模型利用TRM输入图像和文本信息，进行预训练任务，从大量数据中学习信息，得到多模式预训练模型，并进入下游任务。

但是，这些都有问题。很多人没有文字平行无监督数据。相反，大家都有文字平行的标记数据。

所以我们直接借用TRM的机制，直接做下游任务的微调就可以了。这个方框里有一篇名为Facebook mmbt的论文。

MMMBT其实很简单。直接看这张图：

利用bert进行初始化，图像从resent得到矢量输出。通常为3个，将文本拼接后输入bert，在下游任务中直接进行微调。

这里想说几句，实际上也可以在文本和图像之间直接做attention。多头也可以是偏头痛，其实偏头痛就足够了。

3. 基于双线性池化的融合办法双线性方法也是一种备受重视的融合方法，但问题是将n取为n的平方可以大大提高复杂度，后续的改进一般都是降低复杂度。

双线性法的第一个操作是通过建立向量的外积获得矩阵，对矩阵进行sum池化获得特征向量并进行分类。

如果是实际业务的话，优先前两个吧。双线性池化稍后再说吧。