论文观后感 - Learning in High Dimension Always Amounts to Extrapolation

3358 www.Sina.com/: learninginhighdimensionalwaysamountstoextrapolation

http://www.Sina.com/:3359 arxiv.org/ABS/2110.09485

标题:推荐，LeCun制，Facebook AI制，机器学习理论

arXiv链接3360 thenotionofinterpolationandextrapolationisfundamentalinvariouseldsfromdeeplearningtofunctionapproximation.interpolation fon plefallsinsideorontheboundaryofthegivendataset’sconvexhull.extrapolationoccurswhenxfallsoutsideooutside hatconvexhull.one conceptionisthatstate-of-the-artalgorithmsworksowellbecauseoftheirabilitytocorrectlyinterpolatetrainingdata.asecond () nsthroughouttasksanddatasets，in fact， manyintuitionsandtheoriesrelyonthatassumption.weempiricallyandtheoreticallyargueagainstthosetwopointsanddemonstratethatonany interpolationalmostsurelyneverhappens.thoseresultschallengethevalidityofourcurrentinterpolation/extrapolationdenition/enasanition

从阅读原因:深度学习到概率建模、插值和外推两种扩展当采样点位于数据集凸包内或边缘时会发生插值，而当采样点位于凸包外时会发生外推。

一个基本的概念/误解是当前最好的算法(SATA )可以在训练集中进行插值采样，从而发挥作用。另一个基本概念/误解是插值发生在任务和整个数据集的流程中。也就是说，采样和预测。其实，很多直觉(intuitions )和理论都依赖于这个假说。

【贡献】我们从经验和理论上反对上述两点假设，表明在任意高维(大于100 )数据集上都不会发生插值采样。这些结果是对我们现有的“将插值和外推定义为衡量泛化能力的指标”概念有效性的挑战。什么意思？）

接下来是感想。我希望真正从事机器学习领域的大神能提供说明。这里就是扔球的地方。

一、Data Manifold 1.1这是什么全文我一直在强调Data Manifold，但毕竟还很肤浅，我不知道Data Manifold是什么。这对于机器学习、统计学习的同学来说是个简单的概念吧。我在网上翻了翻，找了觉得可靠的科学论文。 manifoldsindatascience—abriefoverview，这个Data Manifold对应的中文解释应该是数据流形，是高维空间中数据的可视化表示，也就是“流的形式”。

返回这篇科学论文manifoldsindatascience—abriefoverview。流形的定义是在我的理解下翻译的。通常，此manifold用于描述高维空间中数据的几何表示。一般来说，我们三维生物无法理解四维以上的几何表示，但是如果这个高维几何表示满足以下条件，就可以认为是一种manifold。

摘要

文中提供了一些manifold的例子，贴于此以供直观。也就是说，所有的面都没有边、顶点，从三维的视点作为蚂蚁踩的面都是二维的平面。

1.2有什么我无法考证的。朴素的料理是一只鸡。我只能认为以下记述是正确的。由于高维空间中的数据不可见，因此可以通过将高维数据集分割为名为manifold的特殊子集来实现可视化。也就是说，manifold是将高维数据降维表现的工具

（stepping stone，文中为垫脚石）。

1.3 Manifold Learning

如果我们有了manifold，这个manifold是学到的，是对高维空间数据的一种数据表示形式，我们就可以通过这个manifold来进行预测，预测的内容是留在原来的剩余空间内的。

Many tasks in machine learning are concerned with learning manifold representations for data, and then utilizing this representation to make predictions about the remaining space.

这就跟Learning in High Dimension Always Amounts to Extrapolation相关联起来了，“预测关于剩余空间的内容”，如果这个“预测”超出了“剩余空间”呢？

二、插值与外推 2.1 结论

直接上结论：

“我们一般认为，模型泛化能力的高低，取决于模型的插值能力，也即是说，如果模型能够在一个凸包中准确地描述这个数据集，那么这个模型的泛化能力就很强”

上述理论是有问题的。为了满足模型插值行为，数据集的数量必须呈指数型地上升，即数据集维度越高，数据集的大小就必须越大（这跟我们平时训练网络的直观想法是一致的）；在训练集上，模型的表现很好，但在测试集上，模型的表现就不好了（这也是一致的），其原因就是，模型所描述的凸包，训练集是在凸包内的，但测试集几乎都在凸包外。

2.2 推理模型将数据集描述为manifold，是个凸包。训练过程，是在凸包内部采样，因此训练可以视为插值。预测过程，被视为在凸包内部采样，也就是说经由模型描述的凸包，将预测数据也包含在其中，即泛化能力强，模型好。当预测数据在凸包外，这种行为叫做外推，因为这些预测数据没有被模型考虑到，因此模型无法准确预测出结果。我们可以观察到，当预测行为，从插值到外推，性能（预测准确度）降低。作者通过生成数据与真实数据，观察到了一种现象，并在后续篇幅中通过理论推导进行证明：当数据维度大于100时，模型只能外推

咋推理的，我觉得对我的方向没有好处，就没再看下去了。

2.3 个人理解

数据维度大了，就只能外推。啥意思？这是不是在说：

现有模型，无法怎么描述数据集，当出现新的采样的时候，这个采样点就一定会落在模型描述的凸包外进一步地，模型无法囊括全部内容，就像在平面上画圈，始终有内部和外部那咋办，我也不知道我们现在的模型，因为拥有超人的能力，能够处理外推的情况有没有方法能够能够将外推情况降低，那岂不是模型的预测能力就提高了有没有办法让外边的采样点通过什么转换，变到内部，或则让模型能够更能适应外推的情况？三、其它

一些讨论: https://www.reddit.com/r/MachineLearning/comments/qbbknr/r_learning_in_high_dimension_always_amounts_to/

以及我觉得重要的话：

“manifold” refers to spaces with a differentiable or topological structure, while “variety” refers to spaces with an algebraic structure, as in algebraic varieties. 来自https://en.wikipedia.org/wiki/History_of_manifolds_and_varieties

这里声明下我在机器学习方向上是pydzh，想看看大神例如LeCun怎么从“哲学”等高纬度方向、自顶向下、宏观地看待机器学习、深度学习，为我做CV提供方向、指导，例如问题的定义、深层描述等。看了老半天，似乎还是没能理解LeCun大神的点在哪儿，修为不够。