首页 > 编程知识 正文

lecun耳机如何使用,泛化是什么意思

时间:2023-05-06 20:28:20 阅读:33863 作者:2978

请单击下面的卡片,并注意“CVer”上的公共号码

AI/CV重磅干货,第一时间送达

本文转载自《新智元》

来源: arXiv编辑: LRS

【导读】很久以来,我就有过这样的想法,认为在测试集中表现更好的模型,通用性一定会更好,实际上是这样吗? LeCun团队最近发表了一篇论文,实验证明高维空间中测试集和训练集无关,模型只有外推而没有内插。 也就是说,如果模型和测试集在训练集中的表现没有关系,那么写排行榜不是没有意义吗?内插(interpolation )和外推)是机器学习、函数逼近(function approximation )中的两个重要概念。

在机器学习中,如果某个测试样本的输入在训练集的输入范围内,则模型预测过程称为“外推”;如果在范围外,则称为“外推”。

到目前为止,深度学习的研究依赖于两个概念:

最先进的算法之所以能这么好地运行,是因为它能正确地插值训练数据

任务和数据集只有插值,没有外推。

但是获得图灵奖的杨乐村团队在arxiv上发表论文公开质疑这两个概念是错误的!

他们在论文中说,无论是理论上、经验上、合成数据还是实际数据,无论数据流形data manifold的基本固有维数intrinstic dimension如何,几乎都可以肯定插值不会出现在高维空间[100]中。

固有维是指在降维和压缩数据的过程中,为了最大限度地保持数据的特征,至少需要保留哪些features。 它还告诉我们可以压缩数据的程度,因此我们需要知道哪些功能对数据集的影响最大。

考虑到可以在当前计算能力下托管的实际数据量,新观察的样本不存在于该数据集的convex hull中。 所以他们得出了两个结论:

目前使用和研究的模型基本外推;

鉴于这些模型实现的超越人的性能,外推机制也不一定要避免,但这也不是泛化性能的指标。

本文研究的第一阶段主要包括了解环境维度(即数据所在空间的维度)的作用,基本数据流形内维度(即数据最小表示所需的变量的作用),以及包含所有数据流形的最小仿射子空间的维数。

一些人可能认为像图像这样的数据可能在低维流形上。 因此,与高维环境空间无关地发生插值,可以凭直觉和经验来考虑。 但是,这种直觉会产生误解。 实际上,即使在具有一维流形的极端情况下,基础流形的维也不会改变。

在解释新样本在插值区域的概率演变时,上图显示了在对数标度中看到的增加的数据集大小,以及基于对500000次实验的蒙特卡罗估计的各种环境空间维度(d )。 左边的图是来自zldbbt密度n ) 0,Id )的采样数据,中间的图是来自具有1的固有维数的非线性连续流形的采样数据,右边的图是ZLDBT密度一定维数4的仿射子数据

这些数字清楚,为了使插值区域的概率保持恒定,它必须与作为包括整个数据流形的最低维仿射子空间的维的d成指数增长,而不管潜在的内在流形维训练集的大小如何。

在任何情况下,该数据集的固有维度都是1,并且流形是连续的、非线性的、分阶段的平滑的,并且对应于简单形式的遍历。

因此,可以得出结论,为了提高插值区域的概率,应该控制d,而不是控制流形的基础维度和环境空间维度。

在研究像素空间内测试集的外推时,研究人员首先研究了MNIST、CIFAR、Imagenet序列集中处于插值状态的测试集的比例。

为了了解数据维的影响,使用从两种策略中得出的不同数量的维来计算此比率。 第一种策略的优点是仅保留距离图像中心一定数量的维,从而在仅考虑有限维的同时保留流形几何体;第二种方法平滑地对图像进行子采样。 这具有以下优点:可以删除高频结构(图像细节)并压缩较少的维信息,同时保留整个流形几何体。

在这两种情况下,发现尽管自然图像具有数据流形的几何结构,但在插值域中为数据维d查找样本非常困难。

在降维空间中研究测试集外推时,一系列实验使用非线性或线性降维技术使高维数据集可视化。 为了清楚地知道所使用的降维技术是否保存了插值或外推信息,研究人员制作了由d=8,12的d维超立方体的2d顶点构成的数据。

这些数据集是特定的。 也就是说,所有样本都相对于其他样本处于外推状态。 并且,使用8种不同的一般降维技术对这些顶点进行二维显示。 观察到降维方法会丢失插值/外推信息,导致严重偏向插值的视觉误解。

插值和外推为给定数据集的新采样位置提供了直观的几何特征。 这些术语通常用作几何代理,以预测模型在看不见的样本中的性能。 根据以往的经验

看似乎已经下了定论,即模型的泛化性能取决于模型的插值方式。这篇文章通过实验证明了这个错误观念。

并且研究人员特别反对使用内插和外推作为泛化性能的指标,从现有的理论结果和彻底的实验中证明,为了保持新样本的插值,数据集大小应该相对于数据维度呈指数增长。简而言之,模型在训练集内的行为几乎不会影响该模型的泛化性能,因为新样本几乎肯定位于该凸包(convex)之外。

无论是考虑原始数据空间还是嵌入,这一观察结果都是成立的。所以研究人员认为,这些观察为构建更适合的内插和外推几何定义打开了大门,这些定义与泛化性能相一致,特别是在高维数据的情况下

参考资料:

https://arxiv.org/abs/2110.09485

ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDFCVer-Transformer交流群成立扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。