联合概率分布与条件概率分布,用联合分布函数表示概率

联合概率分布

假设监督学习的输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)，对于学习系统来说，联合概率分布的具体定义是未知的，训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。X和Y具有联合概率分布就是监督学习关于数据的基本假设。

按模型分类一概率模型
概率模型是生成模型，一定可以表示为联合概率分布的形式非概率模型
非概率模型是判别模型二线性模型非线性模型三参数化模型非参数化模型按算法分类在线学习批量学习按技巧分类贝叶斯学习核方法统计学习方法三要素

方法 = 模型 + 策略 + 算法

模型：所要学习的条件概率分布或决策函数
策略：按照什么样的准则学习或者选择最优模型。引入损失函数与风险函数的概念。
损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
设模型的输入、输出（X,Y）是随机变量，遵循联合分布P(X,Y)，所以损失函数的期望就是
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X ∗ Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f) = E_p[L(Y,f(X))] = int_{X*Y}L(y,f (x))P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=∫X∗YL(y,f(x))P(x,y)dxdy
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数或者期望损失或者期望风险。
学习的目标就是选择期望风险最小的模型，但是联合分布P(X,Y)是未知的，所以用经验风险估计期望风险。
期望风险 R e m p ( f ) R_{emp}(f) Remp(f)是模型关于训练样本集的平均损失，根据大数定律，当样本容量N趋于无穷时，经验风险 R e m p ( f ) R_{emp}(f) Remp(f)趋于期望风险 R e x p ( f ) R_{exp}(f) Rexp(f)
算法：求解最优化问题的算法，找到全局最优解

生成方法与判别方法

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X) = frac{P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y),之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。生成方法可以还原出联合概率分布P(X,Y)，收敛速度快，当样本容量增加时，学到的模型可以更快的收敛于真实模型，当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用。

判别方法直接学习的时条件概率P(Y|X)或决策函数f(X),直接面对预测往往准确率更高，由于直接学习P(Y|X)或f(X),可以对数据就行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。