【新智元导读】图像描述是计算机视觉、自然语言处理和机器学习的综合问题。近日，谷歌AI提出了一个新的训练集，可以有效提升图像和pydbb语义匹配的相似性。

如果一张图片可以用一千个单词来描述的话，那么图片上描绘的对象之间就有这么多细节。可以说明狗的毛皮布料、被追逐的飞毛腿的商标、刚扔飞毛腿的人脸上的表情等。

目前，包括pydbb描述及其对应图像描述的数据集(如MS-COCO和Flickr30k )被广泛用于学习对准的图像和pydbb表示，并建立描述模型。

但是，这些数据集的交叉模态关联是有限的。图像与其他图像不一致，说明只与同一图像的其他说明一致，图像与说明一致但未标记为一致，没有表示图像与说明不一致的时间的标签。

为了填补这一评价空白，提出了“交叉描述：对MS-COCO扩展的模内语义和模态语义的相似性判断”。

交叉描述(CxC )数据集使用图像-pydbb、pydbb-pydbb和图像-图像对的语义相似性评估扩大了MS-COCO的开发和测试范围。

评价基准基于“语义pydbb相似性”，这是短的pydbb对之间广泛存在的语义相关性的尺度，被扩展为包括图像的判断。发布了对CxC的评价，以及将CxC与现有的MS-COCO数据整合的代码。

创建CxC数据集

CxC数据集扩展了MS-COCO评估的分割，模式内和模式之间具有层次相似性的关联。考虑到随机选择的图像和说明匹配的相似性不高，提出了一种选择项目，通过人工评价来生成具有高相似性的新匹配的方法。为了减轻所选匹配对用于检索它们的模型的依赖性，引入了用不同的编码方法对图像和说明进行编码，计算相同特征值匹配之间的相似度来生成相似度矩阵的间接采样方式。图像使用Graph-RISE嵌入进行编码，描述使用基于GloVe嵌入的通用Salstatementencoder (use )和平均单词袋) BoW )两种方法进行编码。

由于每个MS-COCO样本有五个补充说明，因此将每个补充说明代码平均化以创建每个样本的一个特征，从而所有说明对都可以映射到图像上。

上图：使用平均化辅助描述编码结构的pydbb相似度矩阵。每个单元格对应一个相似度得分，每个pydbb条目对应一个图像。下图：数据集内各图像的图像相似度矩阵。

从pydbb相似度矩阵中选择计算出的两个相似度高的描述，获取各自的图像，根据描述生成外观不同但相似的新的一对。

例如，“害羞地侧着脸的狗”和“黑狗抬头享受微风”的模型相似性相当高，因此可以根据下图中两条狗的对应图像选择图像的相似度等级。也可以通过此步骤从两个计算相似度较高的图像开始，创建新的说明对。

上图：根据说明的相似度选择图像匹配。下图：根据描图像的相似度选择描述匹配。

为此，请使用现有的图像标题在模式之间链接。例如，如果人员对具有匹配描述的样本ij的评估非常相似，则从样本I中选择图像，从样本j中选择描述，以获得用于人工评估的新模态内匹配。然后，使用相似性最高的模式内对进行采样。这包括相似性很高的新匹配。

img.com/origin/pgc-image/579af01bd83a4a0ba64371f28e2aa7f7?from=pc">

不同相似度的语义图像相似性（SIS）和语义图像pydbb相似性（SITS）示例，其中5为最相似，0为完全不相似。

评估

MS-COCO的匹配是不完整的，因为有时为一幅图像的描述同样适用于另一幅图像，但这些关联并未记录到数据集中。CxC使用新的正向匹配增强了这些现有的检索任务，并且还支持新的图像-图像检索任务。

通过其相似度的评级判断，CxC还可以测量模型和人工评级之间的相关性。不仅如此，CxC的相关性分数还考虑相似度的相对顺序，其中包括低分项（不匹配项）。

我们进行了一系列实验，以展示CxC评级的效用。为此，我们使用基于BERT的pydbb编码器和使用EfficientNet-B4作为图像编码器构造了三个双编码器（DE）模型：

1. pydbb-pydbb（DE_T2T）模型，双方使用共享的pydbb编码器。

2. 使用上述pydbb和图像编码器的图像pydbb模型（DE_I2T），且在pydbb编码器上方有一个用来匹配图像编码器输出的层。

3. 在pydbb-pydbb和图像-pydbb任务的加权组合上训练的多任务模型（DE_I2T + T2T）。

pydbb-pydbb（T2T），图像-pydbb（I2T）和多任务（I2T + T2T）双编码器模型的CxC检索结果

从检索任务的结果可以看出，DE_I2T + T2T（黄色条）在图像pydbb和pydbb图像检索任务上的性能优于DE_I2T（红色条）。因此，添加模态内（pydbb-pydbb）训练任务有助于提高模态间（图像-pydbb，pydbb-图像）性能。

相同模型的CxC相关结果

对于关联任务，DE_I2T在SIS上表现最好，而DE_I2T + T2T在总体上是最好的。相关分数还显示DE_I2T仅在图像上表现良好：它具有最高的SIS，但具有更差的STS。

添加pydbb-pydbb损失到DE_I2T训练中（DE_I2T + T2T），可以使整体性能更加均衡。

参考资料：

https://ai.googleblog.com/2021/05/crisscrossed-captions-semantic.html

https://arxiv.org/pdf/2004.15020.pdf

ai2020图像描摹(图论及其应用张先迪课后答案)

【新智元导读】图像描述是计算机视觉、自然语言处理和机器学习的综合问题。近日，谷歌AI提出了一个新的训练集，可以有效提升图像和pydbb语义匹配的相似性。

创建CxC数据集