首页 > 编程知识 正文

机器学习线性模型,机器学习基本概念

时间:2023-05-03 09:53:54 阅读:182546 作者:1375

机器学习是什么

数据 ————> > 经验、规律 ————> > 预测、判断(由数据总结出经验和规律并应用于预测和判断)

机器学习基本术语 数据集特征(自变量) + 标签(因变量)Y:标签(label)也可以叫因变量,希望预测及解释的核心变量X:特征(features)也叫自变量,反映事物或对象的某方面的表现性质样本(sample)数据集中关于事物或者对象的每一条记录模型(model)规律和经验学习(learning)从数据中总结规律的过程训练集(training data set)模型学习的教材验证集(testing data set)检验模型的考试题误差(error)衡量模型准确性的指标

比如下图中,左侧就是特征(自变量),右侧即为标签(因变量)

监督学习与非监督学习

1)监督学习里面的监督指的是什么?
        监督(supervision):指的就是前面提到的Y

2)监督学习:在因变量或标签(Y)监督下的学习过程
        目标:在数据集中寻找自变量(X)与因变量(Y)之间的关系
        核心特征:数据集中有因变量或者标签(Y)

3) 监督学习的应用:
a. 房价预测
        自变量:面积、房价等房屋属性
        因变量:房屋价格

b. 图像识别
        自变量:原始图像像素
        因变量:图像中物体的标签

c. 银行信用评估
        自变量:客户的信用行为
        因变量:该客户是否存在信用风险

d. 语义识别
        自变量:文本
        因变量:文本含义

4)非监督学习:不存在因变量或标签(Y)监督下的学习过程
        目标:在数据集中挖掘有价值的或有趣的信息或结构
        核心特征:数据集中没有因变量或者标签

5) 监督学习的应用:
a. App客群的分类
        数据:App客户上线行为数据
        目标:使用聚类算法对客户进行分类

b. 词向量转换
        数据:文本数据
        目标:将文本转换为词向量

分类问题与回归问题

分类问题:因变量(Y)为离散的标签变量
回归问题:因变量(Y)为连续的标签变量

1) 分类问题和回归问题是监督学习还是非监督学习?
因为两者都是含有因变量(Y)的,所以是属于监督学习

2)场景划分
比如之前的房价的预测(属于回归问题,价格是属于连续的,但是如果把房价按照区间进行划分,就是一个分类问题)
猫狗识别的问题,属于分类的问题

如何评价一个学生成绩的好坏?

1) 设定评价的指标

假设按照三个指标
        上课、做作业:正确率;
        期末考试:分数(正确率);
        高考:分数(正确率)

2)个体评价
        上课、做作业:99%;
        期末考试:95%;
        高考:90%
这时候我们可以评价这个同学的成绩比较好

模型的预测能力如何判定?

1)设定评价的指标
回归问题 为例:
模型f(x)在数据集上的均方差(MSE)越小,则说明模型在数据集N上表现的就越好

2)模型评估过程
        上课、做作业:模型训练;
        期末考试:模型验证;
        高考:模型应用

3)如何评价模型好坏
        训练集(教材教辅):训练模型的数据集
        验证集(模拟考卷):测试机器学习模型泛化能力(举一反三)的数据集
        应用数据(高考):模型实际应用场景的特征集

比如依据上面的个体评价中的结果可以认定这个模型是个好模型

过拟合和欠拟合


结合上面的举例来看:

        欠拟合是指:作业做不好、考试考不好、高考直接完蛋
        过拟合是指:作业做得很完美(只会背)、考试成绩却不高、举一反三的能力差

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。