数据降维的意义,主成分分析结果用于聚类分析

聚类算法的特征降维-特征选择、主成分分析降维1.1定义【改变特征值、选择保留哪些列、删除哪些列；以获得“无关”的一组主变量为目标】降维是指在一定限定条件下，在降低随机变量(特征)个数下，获得一组“不相关”主变量的过程

减少随机变量的数量

相关特性(correlated feature )相对湿度与降雨量的相关性等，只有在进行训练时运用特征进行学习才能得到。当特征本身存在问题或特征间相关性强时，对算法学习预测有很大影响

1.2降维的两种方式http://www.Sina.com/http://www.Sina.com/2特征选择【去除数据中的冗馀变量】2.1定义数据包含http://www.Sina.com/

2.2方法滤波公式主要探究特征自身的特征、特征与目标值的关系(3358 www.Sina.com/http://www.Sina.com/embedded )算法自动选择因为不能按照预想删除，所以平时很少使用。】删除了一些低分散的特征，并阐述了分散的含义。结合方差的大小考虑这种方式的角度。

特征方差小：一个特征的多个样本值比较接近；特征方差大：一个特征的多个样本值相差2.3.1 API

sk learn.feature _ selection.variance threshold (threshold=0.0 )【必须传递名为threshold的参数】所有低色散特性variance.fit 也就是说，从所有样本中删除具有相同值的特性。 2.3.2数据计算

我们除了特征选择、' index、' date '、' return '列外，还有3358www.Sina.com/

一共这些特征

pe_ratio，pb_ratio，market_cap，return_on_asset_net_profit，du_return_on_equity，ev，earin ity earnings_per_share， revenuity 8252550922.0、0.8008、14.9403、1211444855670.0、2.01、20701401000.0、10882540000.0、2012-01-31、0.0276572220 0.326、29308369223.2、23783476901.2、2012-01-31、0.08235182370820692、0008.XSS-0.5943、770517752.56、- 0.006 0.0997890035123273，00060.xshe， 16.476 28009159184.6、0.35、9189386877.65、7935542726.05、2012-01-31、0.121594827586206974、000069.xshe、12.5878

"text-indent:33px;">1、初始化VarianceThreshold,指定阀值方差

2、调用fit_transform 【在特征降维中，不需要对目标值进行降维，只对特征值进行特征降维】

import pandas as pdfrom sklearn.feature_selection import VarianceThresholddef variance_demo(): """ 删除低方差特征--特征选择 :return: None """ data = pd.read_csv('./factor_returns.csv') print(data) # 1.实例化一个转换器类 transfer = VarianceThreshold(threshold=1) # 2.调用fit_transform data = transfer.fit_transform(data.iloc[:, 1:10]) # 除去'index,'date','return'列不考虑（这些类型不匹配，也不是所需要指标） print('删除低方差特征的结果：n', data) print("形状：n", data.shape) return Nonevariance_demo()

运行结果：

index pe_ratio pb_ratio ... total_expense date return0 000001.XSHE 5.9572 1.1818 ... 1.088254e+10 2012-01-31 0.0276571 000002.XSHE 7.0289 1.5880 ... 2.378348e+10 2012-01-31 0.0823522 000008.XSHE -262.7461 7.0003 ... 1.203008e+07 2012-01-31 0.0997893 000060.XSHE 16.4760 3.7146 ... 7.935543e+09 2012-01-31 0.1215954 000069.XSHE 12.5878 2.5616 ... 7.091398e+09 2012-01-31 -0.002681... ... ... ... ... ... ... ...2313 601888.XSHG 25.0848 4.2323 ... 1.041419e+10 2012-11-30 0.0607272314 601901.XSHG 59.4849 1.6392 ... 1.089783e+09 2012-11-30 0.1791482315 601933.XSHG 39.5523 4.0052 ... 1.749295e+10 2012-11-30 0.1371342316 601958.XSHG 52.5408 2.4646 ... 6.009007e+09 2012-11-30 0.1491672317 601989.XSHG 14.2203 1.4103 ... 4.132842e+10 2012-11-30 0.183629[2318 rows x 12 columns]删除低方差特征的结果： [[ 5.95720000e+00 1.18180000e+00 8.52525509e+10 ... 1.21144486e+12 2.07014010e+10 1.08825400e+10] [ 7.02890000e+00 1.58800000e+00 8.41133582e+10 ... 3.00252062e+11 2.93083692e+10 2.37834769e+10] [-2.62746100e+02 7.00030000e+00 5.17045520e+08 ... 7.70517753e+08 1.16798290e+07 1.20300800e+07] ... [ 3.95523000e+01 4.00520000e+00 1.70243430e+10 ... 2.42081699e+10 1.78908166e+10 1.74929478e+10] [ 5.25408000e+01 2.46460000e+00 3.28790988e+10 ... 3.88380258e+10 6.46539204e+09 6.00900728e+09] [ 1.42203000e+01 1.41030000e+00 5.91108572e+10 ... 2.02066110e+11 4.50987171e+10 4.13284212e+10]]形状： (2318, 8)

【从运行结果可以看出，列数减少了，由本来的12列，经过代码处理选择1：10列，代码降维处理是减少了1列】

2.4 相关系数 主要实现方式：皮尔逊相关系数无奈的身影相关系数

2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)

1.作用

反映变量之间相关关系密切程度的统计指标

2.公式计算案例

公式

举例

比如说我们计算年广告费投入与月均销售额

那么之间的相关系数怎么计算

最终计算：

所以我们最终得出结论是广告投入费与月平均销售额之间有高度的正相关关系。

3.特点

相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关

4.api

from scipy.stats import pearsonr x : (N,) array_likey : (N,) array_like Returns: (Pearson’s correlation coefficient, p-value)

5.案例

from scipy.stats import pearsonrx1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]ret = pearsonr(x1, x2)print(ret)

运行结果：

2.4.2 无奈的身影相关系数(Rank IC)

1.作用：

反映变量之间相关关系密切程度的统计指标

2.公式计算案例

公式:

n为等级个数，d为二列成对变量的等级差数

举例:

3.特点

无奈的身影相关系数表明 X (自变量) 和 Y (因变量)的相关方向。如果当X增加时， Y 趋向于增加, 无奈的身影相关系数则为正与之前的皮尔逊相关系数大小性质一样，取值 [-1, 1]之间

无奈的身影相关系数比皮尔逊相关系数应用更加广泛

4.api

from scipy.stats import spearmanr

5.案例

from scipy.stats import spearmanrx1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]ret = spearmanr(x1, x2)print(ret)

运行结果：

3 主成分分析 3.1 什么是主成分分析(PCA) 【高维数据转换为低维数据，然后产生了新的变量】定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。应用：回归分析或者聚类分析当中

那么更好的理解这个过程呢？来看一张图

3.2 API sklearn.decomposition.PCA(n_components=None) 将数据分解为较低维数空间n_components: 小数：表示保留百分之多少的信息整数：减少到多少特征PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]返回值：转换后指定维度的array3.3 数据计算

先拿个简单的数据计算一下

from sklearn.decomposition import PCAdef pca_demo(): """ 对数据进行PCA降维 :return: None """ data = [[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]] # 1.实例化PCA，小数--保留多少信息 transfer = PCA(n_components=0.9) # 2.调用fit_transform data1 = transfer.fit_transform(data) print("保留90%的信息，降维结果为：n", data1) # 1.实例化PCA，整数--指定降维到的维数 transfer2 = PCA(n_components=3) # 调用fit_transform data2 = transfer2.fit_transform(data) print("降维到3维的结果：n", data2) return Nonepca_demo()

运行结果：

保留90%的信息，降维结果为： [[ 1.28620952e-15 3.82970843e+00] [ 5.74456265e+00 -1.91485422e+00] [-5.74456265e+00 -1.91485422e+00]]降维到3维的结果： [[ 1.28620952e-15 3.82970843e+00 5.26052119e-16] [ 5.74456265e+00 -1.91485422e+00 5.26052119e-16] [-5.74456265e+00 -1.91485422e+00 5.26052119e-16]]