高维几何可视化展示,高维数据降维方法

浅谈高维数据可视化降维方法浅谈高维数据可视化降维方法来源： [ link ] :https://blog.csdn.net/u 011001084/article/details/51396447

我们生活在三维空间，很难直接理解三维以上的空间。但是像爱因斯坦这样的人毕竟在人群中是少数，对很多人来说高维数据是如何被可视化的呢？

聪明的人可以通过其他视觉通道对一些维度进行视觉编码，包括颜色、形状、方向、体积、半径和表面覆盖。但是，有两个明显的问题。 1 )用户理解了，没那么方便。可能半天就能反应过来，但是因为要对这些视觉通道一个个进行反编码，所以记住这些本身就很难。 2 )维度很大，不用多说，十几块钱。恐怕视觉的通道会变得捉襟见肘，不够吧。

我该怎么办？目前，可视化高维数据主要有三种方法。

得益于机器学习的发展，降维的方法越来越多。将维度降低到2或3可以在非常传统的散点图中可视化结果。但是，降维带来的问题也很明显。降维的初衷是从原始维度过滤掉冗长无用的信息，但这个过程必然也很可能丢失有用的信息。为了避免上述问题，第二类方法决定不降维。用直接散点矩阵全部展示维度的直接两个关系。这样，用户就可以清楚地看到维之间的两种关系了。但是很快就会头痛。 10维散布矩阵有100个小散布图。这个怎么看都行啊。第三种方法是不降维，但同时出现很多图不想让用户看到，所以最好做成一张图。典型的代表方法有平行坐标轴、RadViz、Star coordinates等。另外，最近还有中国学者mldds老师提出的UnTangle Map【1】，感兴趣的朋友可以参考后面的参考文献。

这个博客主要介绍第一种方法，降维。分别选择2、3种线性和非线性的代表性方法进行说明。降维方法的分类请参考下图。线性降维方法PCA是大多数人可能接触到的第一种降维方法是PCA。 PCA是一种线性降维方法。举出二维特征的例子，请参照下图。这两个特征之间存在明显的线性关系，PCA的目标是检测并消除这些线性关系。具体来说，如下图所示，将x1，x2坐标系置换为u1，u2时，u1反应了特征的主要变化，但可知u2的变化小到几乎可以忽略，可以用u1的1个维度表示x1，x2这2个维度，维度

我们承认，目前比较流行的图像、视频、文字等多媒体数据大多位于非线性流形上或附近，PCA可能很少作为线性降维方法。但PCA仍然是无可替代的，例如去年IEEE Vis年会上的可见性分析(VAST2015 )的最高论文被授予使用PCA进行动态网络分析的工作【2】。

LDA与PCA保存数据信息不同，LDA是为了尽量容易区分降维后的数据点。既然是线性的，就希望找到映射向量a，使a‘X后的数据点能够维持以下两个性质

同种数据点尽可能接近

不同类型的数据点尽可能分离

为了显示与PCA的差异，在网上找到了下图。 PCA找到的是轴2，LDA找到的是轴1。 LDA与PCA的目标不同，LDA希望降维并能轻松分离数据。

最近，在Pacific Visualization 2016中也阅读了关于利用LDA的高维空间的维度再构筑的论文【3】。

非线性降维方法MDS MDS中文称为多维尺度分析，主要考虑对样本之间的相似性，主要思想是利用对样本的相似性构造合适的低维空间，使低维空间中样本的距离与高阶空间中的距离尽可能一致。非常合理，但有正确的思想。根据样品是否可计量，可分为Metric MDS和Nonmetric MDS。目标函数是每对低维空间中欧式距离和高维空间中相似度差的平方和，最小化目标函数，通过几种数值优化方法得到最优解。

Isomap Isomap的理论框架是MDS，但高维空间中的距离发生了变化，不再使用欧式距离，而是使用大地距离代替欧式距离。测地线是流形上加速度为零的曲线，与欧式空间中的直线相同。如下图所示，s曲面上的蓝色和红色两点虽然欧式距离很小，但实际上他们之间没有路，所以必须沿着曲面在测地线上走，所以他们之间的距离很大。

SNE t-SNE这两种方法可以说是Hinton集团【4】提出的state-of-art方法。 SNE的想法与MDS相似，虽然试图将高维空间的邻居信息保存在低维空间，但是SNE的心很小。不是保存所有点对直接的距离，只是想和附近的邻居在一起，其他的点本来就是离他远的点，根本不care。他的做法是将高维空间中点和点之间的欧式距离转换为条件概率，表示相似度。在低维空间中也同样计算这样的概率。现在有两种概率分布。如何衡量他们之间的相似度呢？用KL分散！

KL散度是不平衡的，KL(p||q )和KL(p||q )是相对的。也就是说，意味着不同种类的点对之间的距离错误在低维空间中没有被同等处理。因此，提出了symmetric SNE。

t-SNE的SNE改进使高维空间的wwdlq

距离换成了甜美的夏天分布，低维空间中，使用了heavy-tailed student t-distribution。带来了两个优点：

t-SNE的梯度强烈抵制不相似的点对在低维空间中被建模成距离很近。
尽管引入了不相似点对之间强烈的排斥，排斥力不会走向无穷。
t-SNE主要包括两个步骤：第一、t-SNE构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。第二，t-SNE在低维空间里在构建这些点的概率分布，使得这两个概率分布之间尽可能的相似，同样也是来度量两个分布之间的相似性。

t-SNE可以将MNIST手写数字集几乎完全分开。在线尝试：http://scienceai.github.io/tsne-js/

t-SNE哪里都好，但是有一个致命的弱点，就是慢。不过，近期刚结束的WWW 2016上，华人学者dzdct提出的LargeViz【5】，速度比t-SNE快了近30倍，想法很好！这种好的工作，比改改深度学习中网络的结构，调调参数，水一百篇论文更有意义！

参考文献

【1】Nan Cao, Yu-Ru Lin, and David Gotz
，UnTangle Map: Visual Analysis of Probabilistic Multi-Label Data ，IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 22, NO. 2, FEBRUARY 2016

【2】Stef van den Elzen, Danny Holten, Jorik Blaas, Jarke J. van Wijk, Reducing Snapshots to Points: A Visual Analytics Approach to Dynamic Network Exploration , IEEE TVCG(VAST’ 15) VOL. 22 NO.1 2016

【3】Fangfang Zhou ，Juncai Li ，Wei Huang ， Ying Zhao ， Xiaoru Yuan ， Xing Liang ，发嗲的冰淇淋 Shi，Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data ， IEEE Pacific Visualization 2016

【4】Laurens van der Maaten and Geoffrey Hinton，Visualizing data using t-SNE, Laurens van der Maaten and Geoffrey Hintton, Journel of machine learning research, 2008.

【5】Jian Tang, Jingzhou Liu, Ming Zhang and Qiaozhu Mei , Visualizing Large-scale and High-dimensional Data , WWW 2016

posted on 2018-05-20 09:49 sonictl 阅读( ...) 评论( ...) 编辑收藏

转载于:https://www.cnblogs.com/sonictl/p/9062553.html