分类模型1 .应用2 .逻辑回归的基础知识1 .线性概率模型(线性概率模型, 简易LPM ) 2.2点分布(伯努利分布)3.连接函数的取法(1)式)2)函数图像对比4 )如何求解5 )如何用于分类3 .实战1 )数据处理:虚拟变量的生成2.spss操作(1)通常)2) 2 )确定合适模型)费休线性判别分析1 )概念2 )找出线性系数向量)3.Spss操作4 )结果分析5 .多分类问题1 )引文2 .费休判别分析也可用于多分类4.Logistic回归
一.应用
2 .逻辑回归的基础知识1 .线性概率模型(Linear Probability Model,简称LPM )直接用原始回归模型回归。
2.2点分布(伯努利分布)
3 .连接函数的取法【1】式
后者有解析表达式,但标准正态分布的cdf中没有,因此logistic模型的计算比probit模型更方便。
【2】函数图像的比较
f1=@(x ) normcdf(x ) x; %标准正态分布的累积分布函数fplot(f1,[-4,4 ]; 在%-4到4上绘制匿名函数图形hold on; 网格打开; f2=@(x ) exp ) x )/)1exp ) x ); FPlot(F2,[-4,4 ]; legend (标准正态分布的cdf )、sigmoid函数、位置、SouthEast )4.如何求解
5 .如何用于分类
3 .实战1 .数据处理:生成虚拟变量
删除不需要的列:右键单击----清除
调整
2.spss操作(1)正常
)2)自变量有分类变量时
两种方法
(1)创建虚拟变量,然后删除任意列以消除完全多重共线性的影响;
)直接单击分类后定义分类协变量,Spss会自动生成。
如果没有生成虚拟变量的选项,则SPSS未安装在默认位置。)
)3)逐步回归的设置
向前(向后)逐步回归的可选择统计量存在差异。
进入(或排除)自变量的显现水平可以自己调节
)4)结果分析
在19个苹果样本中,预测为苹果的有14个,预测的正确率为73.7%;
19个橙子样本中,预测为橙子的有15个,预测的正确率为78.9%;
整个样本的物流回归预测成功率为76.3%. 逻辑回归系数表:
3 .表中新增加的两列解读
4 .预测结果较差时,在logistic回归模型中加入平方项、交互项等
(1)操作
)2)平方项相加的结果
5 .验证了拟合现象(1)概念
预测能力有所提高,但容易发生拟合。
样本数据的预测非常好,但是关于样本外的情况
的数据预测效果可能很差。
(是不是和yxdzp现象有点相似)
)确定合适的模型将数据分为训练组和测试组,用训练组的数据估计模型,用测试组的数据进行测试。 (培训组和测试组的比例通常设置为80%和20%。)
分类结果的结果ID为1‐38,已知前19个为苹果,后19个为橙子。 每种水果随机抽取3个ID作为测试组,其余16个ID作为训练组。
(例如,将17(19、36(38个样本作为测试组) )
比较不同自变量模型对测试集的预测效果。
(注意:为了消除偶然性的影响,可以重复上述步骤几次,最终求出每个模型的平均精度。 这一步称为交叉验证
四、Fisher线性判别分析1 .概念LDA (线性离散元分析)是一种典型的线性判别方法,也称为Fisher判别分析。 该方法思想比较简单,给出:训练集的样本,设法将样本投影在一维直线上,使同种样本的投影点尽可能接近密集,异种投影点尽可能远离
详细视频
2 .找到线性系数向量
3.Spss操作
4 .结果分析
五、多分类问题1、引文目前水果分类共有四类,其四个指标平均值如下表:
2 .费希尔判别分析可用于多分类
4.Logistic回归也可用于将多分类Sigmoid函数推广到Softmax函数