首页 > 编程知识 正文

python训练模型,图像特征提取三大算法

时间:2023-05-06 05:43:28 阅读:12353 作者:2414

说明:这是一个机器学习实战项目,附带数据+代码+文档+代码讲解数据+代码+文档+代码讲解可直接拿到文章末尾。

1 .项目背景目前是大数据时代,具备大数据思想很重要,人工智能技术在各行各业的应用已经随处可见。 分级诊断树(gbdt )是机器学习中最受欢迎的模型,其主要思想是用弱分类器(决策树)反复训练获得最佳模型,该模型训练效果好,拟合过度GDT不仅在工业界得到广泛应用,而且通常用于许多分类、点击率预测、搜索排名等任务; 在各种数据挖掘竞赛中也是致命武器,统计显示许多竞赛一半以上的冠军方案都是基于GBDT。 另一方面,light GBM (轻量级分布式boostingmachine )是实现GBDT算法的框架,支持高效并行训练,支持提高训练速度、降低内存消耗、提高精度、分散

2 .数据获取本次建模数据由网络(本项目作者整理),数据项统计如下:

数据的详细情况如下。 (部分展示) :

3 .数据预处理的实际数据可能含有大量的缺失值和噪声数据,或人工输入错误导致存在异常之处,对算法模型的训练非常不利。 数据清洗的结果,对各种污染的数据进行应对方式的处理,得到标准、清洁、连续的数据,用于数据统计、数据挖掘等。 数据预处理通常包括数据清洗、归纳、聚合、转换、采样等方式,数据预处理的质量决定着后续数据分析挖掘和建模工作的精度和泛化价值。 简要说明数据预处理工作中的主要预处理方法。

3.1 用Pandas工具查看数据

使用Pandas工具的head ()方法显示前五行中的数据。

键码:

3.2查看数据集摘要

使用Pandas工具的info ()方法显示数据集的摘要信息。

从上图可以看到,总共有569个数据、6个数据项,所有数据都没有缺失值。

键码:

4 .探索性数据分析4.1检查目标变量的分布

使用Pandas工具的value_counts ()方法进行统计后,输出结果如下:

图形显示如下。

从上述两幅图可以看出,归类为1的有347根/0的有212根,数据偏差不大。 另外,可以看出这是二分类的任务。

4.2 相关性分析

使用Pandas工具的方法matplotlib seaborn进行相关分析后,结果如下。

从上图可以看出,数据项间的正值为正相关/负值为负相关,数值越大相关性越强。

5 .特征工程5.1 建立特征数据和标签数据

诊断程序是标签数据,诊断程序以外的是特征数据。 关键发生器

码如下:

 

5.2数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

 

6.构建lightgbm分类模型

主要使用使用LGBMClassifier算法,用于目标分类。

6.1模型参数

由于上述参数的值是默认值,所有在建模的代码中直接用的默认值。

关键代码如下:

7.模型评估

7.1评估指标及结果

评估指标主要包括准确率、查准率、查全率、F1分值等等。

从上表可以看出,准确率为93%  F1分值为95%,lightgbm分类模型比较优秀,效果非常好。

关键代码如下:

7.2 查看是否过拟合

查看训练集和测试集的分数:

 

通过结果可以看到,训练集分数和测试集分数基本相当,所以没有出现过拟合现象。

关键代码:

7.3 混淆矩阵

lightgbm分类模型混淆矩阵:

 

从上图可以看到,实际值为1 预测为0的有4个;实际值为0  预测为1的有8个;这些是预测错误的,总共12个,在可以接受的范围内。

7.4 分类报告

lightgbm分类模型分类报告:

 

从上图可以看到,分类类型为0的F1分值为0.90;分类类型为1的F1分值为0.95;整个模型的准确率为0.93.

7.5 模型特征重要性

 

从上图可以看到特征变量对此模型的重要性依次为:mean_smoothness、mean_texture、mean_perimeter、mean_radius、mean_area等等。

7.6 ROC曲线 

 

从上图可以看出AUC值为0.98,模型非常棒。

8.结论与展望

综上所述,本文采用了lightgbm分类模型,最终证明了我们提出的模型效果良好。准确率达到了93%,可用于日常生活中进行建模预测,以提高价值。

本次机器学习项目实战所需的资料,项目资源如下:

项目说明:
链接:https://pan.baidu.com/s/13r3-mTcCRBfwWRtbpnFUpw 
提取码:s2wn

网盘如果失效,可以添加博主微信:zy10178083

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。