lecun耳机如何使用,泛化是什么意思

请单击下面的卡片，并注意“CVer”上的公共号码

AI/CV重磅干货，第一时间送达

本文转载自《新智元》

来源： arXiv编辑： LRS

【导读】很久以来，我就有过这样的想法，认为在测试集中表现更好的模型，通用性一定会更好，实际上是这样吗？ LeCun团队最近发表了一篇论文，实验证明高维空间中测试集和训练集无关，模型只有外推而没有内插。也就是说，如果模型和测试集在训练集中的表现没有关系，那么写排行榜不是没有意义吗？内插(interpolation )和外推)是机器学习、函数逼近(function approximation )中的两个重要概念。

在机器学习中，如果某个测试样本的输入在训练集的输入范围内，则模型预测过程称为“外推”；如果在范围外，则称为“外推”。

到目前为止，深度学习的研究依赖于两个概念：

最先进的算法之所以能这么好地运行，是因为它能正确地插值训练数据

任务和数据集只有插值，没有外推。

但是获得图灵奖的杨乐村团队在arxiv上发表论文公开质疑这两个概念是错误的！

他们在论文中说，无论是理论上、经验上、合成数据还是实际数据，无论数据流形data manifold的基本固有维数intrinstic dimension如何，几乎都可以肯定插值不会出现在高维空间[100]中。

固有维是指在降维和压缩数据的过程中，为了最大限度地保持数据的特征，至少需要保留哪些features。它还告诉我们可以压缩数据的程度，因此我们需要知道哪些功能对数据集的影响最大。

考虑到可以在当前计算能力下托管的实际数据量，新观察的样本不存在于该数据集的convex hull中。所以他们得出了两个结论：

目前使用和研究的模型基本外推；

鉴于这些模型实现的超越人的性能，外推机制也不一定要避免，但这也不是泛化性能的指标。

本文研究的第一阶段主要包括了解环境维度(即数据所在空间的维度)的作用，基本数据流形内维度(即数据最小表示所需的变量的作用)，以及包含所有数据流形的最小仿射子空间的维数。

一些人可能认为像图像这样的数据可能在低维流形上。因此，与高维环境空间无关地发生插值，可以凭直觉和经验来考虑。但是，这种直觉会产生误解。实际上，即使在具有一维流形的极端情况下，基础流形的维也不会改变。

在解释新样本在插值区域的概率演变时，上图显示了在对数标度中看到的增加的数据集大小，以及基于对500000次实验的蒙特卡罗估计的各种环境空间维度(d )。左边的图是来自zldbbt密度n ) 0，Id )的采样数据，中间的图是来自具有1的固有维数的非线性连续流形的采样数据，右边的图是ZLDBT密度一定维数4的仿射子数据

这些数字清楚，为了使插值区域的概率保持恒定，它必须与作为包括整个数据流形的最低维仿射子空间的维的d成指数增长，而不管潜在的内在流形维训练集的大小如何。

在任何情况下，该数据集的固有维度都是1，并且流形是连续的、非线性的、分阶段的平滑的，并且对应于简单形式的遍历。

因此，可以得出结论，为了提高插值区域的概率，应该控制d，而不是控制流形的基础维度和环境空间维度。

在研究像素空间内测试集的外推时，研究人员首先研究了MNIST、CIFAR、Imagenet序列集中处于插值状态的测试集的比例。

为了了解数据维的影响，使用从两种策略中得出的不同数量的维来计算此比率。第一种策略的优点是仅保留距离图像中心一定数量的维，从而在仅考虑有限维的同时保留流形几何体；第二种方法平滑地对图像进行子采样。这具有以下优点：可以删除高频结构(图像细节)并压缩较少的维信息，同时保留整个流形几何体。

在这两种情况下，发现尽管自然图像具有数据流形的几何结构，但在插值域中为数据维d查找样本非常困难。

在降维空间中研究测试集外推时，一系列实验使用非线性或线性降维技术使高维数据集可视化。为了清楚地知道所使用的降维技术是否保存了插值或外推信息，研究人员制作了由d=8，12的d维超立方体的2d顶点构成的数据。

这些数据集是特定的。也就是说，所有样本都相对于其他样本处于外推状态。并且，使用8种不同的一般降维技术对这些顶点进行二维显示。观察到降维方法会丢失插值/外推信息，导致严重偏向插值的视觉误解。

插值和外推为给定数据集的新采样位置提供了直观的几何特征。这些术语通常用作几何代理，以预测模型在看不见的样本中的性能。根据以往的经验

看似乎已经下了定论，即模型的泛化性能取决于模型的插值方式。这篇文章通过实验证明了这个错误观念。

并且研究人员特别反对使用内插和外推作为泛化性能的指标，从现有的理论结果和彻底的实验中证明，为了保持新样本的插值，数据集大小应该相对于数据维度呈指数增长。简而言之，模型在训练集内的行为几乎不会影响该模型的泛化性能，因为新样本几乎肯定位于该凸包（convex）之外。

无论是考虑原始数据空间还是嵌入，这一观察结果都是成立的。所以研究人员认为，这些观察为构建更适合的内插和外推几何定义打开了大门，这些定义与泛化性能相一致，特别是在高维数据的情况下

参考资料：

https://arxiv.org/abs/2110.09485

ICCV和CVPR 2021论文和代码下载后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDFCVer-Transformer交流群成立扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群▲长按加小助手微信，进交流群▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看