机器学习线性模型,机器学习基本概念

机器学习是什么

数据 ————> > 经验、规律 ————> > 预测、判断（由数据总结出经验和规律并应用于预测和判断）

机器学习基本术语数据集特征（自变量） + 标签（因变量）Y：标签（label）也可以叫因变量，希望预测及解释的核心变量X：特征（features）也叫自变量，反映事物或对象的某方面的表现性质样本（sample）数据集中关于事物或者对象的每一条记录模型（model）规律和经验学习（learning）从数据中总结规律的过程训练集（training data set）模型学习的教材验证集（testing data set）检验模型的考试题误差（error）衡量模型准确性的指标

比如下图中，左侧就是特征（自变量），右侧即为标签（因变量）

监督学习与非监督学习

1）监督学习里面的监督指的是什么？
监督（supervision）：指的就是前面提到的Y

2）监督学习：在因变量或标签（Y）监督下的学习过程
目标：在数据集中寻找自变量（X）与因变量（Y）之间的关系
核心特征：数据集中有因变量或者标签（Y）

3）监督学习的应用：
a. 房价预测
       自变量：面积、房价等房屋属性
       因变量：房屋价格

b. 图像识别
       自变量：原始图像像素
       因变量：图像中物体的标签

c. 银行信用评估
       自变量：客户的信用行为
       因变量：该客户是否存在信用风险

d. 语义识别
       自变量：文本
       因变量：文本含义

4）非监督学习：不存在因变量或标签（Y）监督下的学习过程
       目标：在数据集中挖掘有价值的或有趣的信息或结构
       核心特征：数据集中没有因变量或者标签

5）监督学习的应用：
a. App客群的分类
       数据：App客户上线行为数据
       目标：使用聚类算法对客户进行分类

b. 词向量转换
       数据：文本数据
       目标：将文本转换为词向量

分类问题与回归问题

分类问题：因变量（Y）为离散的标签变量
回归问题：因变量（Y）为连续的标签变量

1）分类问题和回归问题是监督学习还是非监督学习？
因为两者都是含有因变量（Y）的，所以是属于监督学习

2）场景划分
比如之前的房价的预测（属于回归问题，价格是属于连续的，但是如果把房价按照区间进行划分，就是一个分类问题）
猫狗识别的问题，属于分类的问题

如何评价一个学生成绩的好坏？

1）设定评价的指标

假设按照三个指标
       上课、做作业：正确率；
       期末考试：分数（正确率）；
       高考：分数（正确率）

2）个体评价
       上课、做作业：99%；
       期末考试：95%；
       高考：90%
这时候我们可以评价这个同学的成绩比较好

模型的预测能力如何判定？

1）设定评价的指标
以 回归问题 为例：
模型f(x)在数据集上的均方差（MSE）越小，则说明模型在数据集N上表现的就越好

2）模型评估过程
       上课、做作业：模型训练；
       期末考试：模型验证；
       高考：模型应用

3）如何评价模型好坏
       训练集（教材教辅）：训练模型的数据集
       验证集（模拟考卷）：测试机器学习模型泛化能力（举一反三）的数据集
       应用数据（高考）：模型实际应用场景的特征集

比如依据上面的个体评价中的结果可以认定这个模型是个好模型

过拟合和欠拟合

结合上面的举例来看：

欠拟合是指：作业做不好、考试考不好、高考直接完蛋
过拟合是指：作业做得很完美（只会背）、考试成绩却不高、举一反三的能力差