文章目录PCA介绍了SPSS实现python的简单主成分分析和主成分分析,用于综合评价Notice
PCA介绍
一种多元统计方法,利用主成分分析(Principal Component Analysis,PCA )降维方法,将多指标转化为若干综合指标;
在实际问题中,为了全面分析问题,往往提出与之相关的变量(因素),每个变量都在一定程度上包含了结果的一部分信息;
主成分:将原始指标线性组合形成的几个新指标。 利用这些新指标,尽量说明原指标中包含的大部分信息;
例如,在对国民经济的研究中,经过主成分分析,用三个新变量代替原来的17个变量,可以保持97.4%的准确率;
主要成分与原始变量的关系:
主成分保存着原变量大部分信息的主成分的数量大大少于原变量的数量,各主成分之间互不相关; 各主成分是原始变量线性组合,一般表示原始m个变量的主成分有多个,但不同的主成分的信息不能互相包含。 统计上是指两个主成分的协方差为0,几何上两个主成分正交的记述。
SSS实施步骤:
SPSS导入数据-分析-降维-因子分析;
说明-系数;
提取-碎石图;
显示得分-因子得分系数矩阵;
维主成分分析的结果受维的影响,各变量的单位可能不同,因此结果也不同; 这是最大的问题,需要在主成分分析之前将个变量无量纲化,然后用协方差or相关系数矩阵进行分析;SPSS在分析之前自带无量纲化处理了
无量纲化处理一般分为两种:
(1)正规化
另一方面,最小-最大归一化=x'=xmIn(x ) max ) x ) (FRAC(x ) }{max(x )-min(x ) }x )=max ) x
其二,平均归一化=x'=xmean(x ) m a
x ( x ) − m i n ( x ) x'=frac{x-mean(x)}{max(x)-min(x)} x′=max(x)−min(x)x−mean(x)(2) 标准化
x ′ = x − m e a n ( x ) σ ( σ 为 标 准 差 ) x'=frac{x-mean(x)}{sigma}(sigma为标准差) x′=σx−mean(x)(σ为标准差)
SPSS手动无量纲化(标准化):分析 -> 描述统计 -> 描述 -> 勾选"将标准化得分另存为变量"
相关性矩阵
总方差解释
碎石图
求指标对应系数
方法一:利用成分矩阵+解释总方差求得
Fn前面的系数 就是拿 Fn的贡献率/(F1和F2的累计贡献率);比如F1前面的系数:(72.2/84.5);
方法二:利用成分得分系数矩阵(简单但不建议)
计算综合评价值 F=W1F1+W2F2; Wi 为第 i 主成分的贡献率;
比如方法一代入后最终结果如下:
比如方法二代入后最终结果如下:
sklearn.decomposition模块的PCA函数sklearn.decomposition.PCA(n_components=None,copy=True)
n_components:缺省默认为None,所有成分被保留;若设为2,则提取2个主成分,若为0.85,则自动选择主成分,使满足累计贡献率85%;copy:缺省默认为True,表示运行算法时,将原始数据复制一份进行分析;若为false,则在原始数据上进行降维计算;步骤:
对数据矩阵A进行标准化得到B;计算相关系数矩阵np.corrcoef(B.T);计算相关系数矩阵R的特征值 λ1>λ2>…>λm ,以及对于的标准正交化特征向量 u1,u2…um,向量是按列的;利用特征变量得到主成分变量表达式 F1 = u11x1’+u21x2’…+um1ym,F2=…;计算主成分贡献率和累计贡献率,一般取累计贡献率达到85%以上的主成分就行利用得到的主成分F1,F2,…Fk分析问题,进行评价;案例:
分析评价:
主成分分析可应用于诸多评价领域,诸如投资组合风险管理、企业效益的综合分析、图像特征识别等;将主成分分析于聚类分析、判别分析以及回归分析方法相结合;
一般步骤:
对于下列案例: