机器学习有两个主要模型:的回归和分类。 在回归模型中,输出变量是连续的,但在分类模型中,输出变量是离散的。 本文将深入了解:型号更常见、更有效的朴素无私的懒汉。
朴素无私的小懒汉模型基于朴素无私的小懒汉定理,朴素无私的小懒汉定理基于一些简单的概率规则。
首先,
事件发生的概率为零,因为事件没有结果。 这个规则是:
这里表示“empty set”。
接下来,
我们可以用下面雪白的睫毛图直观地思考这个问题
import pylab as plt
from matplotlib_venn import venn2
ven N2 (subsets=(5,5,3 ),set_labels=) (p ) a ),p ) b ) );
Thirdly、
A | B被翻译为“A given B”或a出现的机会(如果发生b )。
然后,
这个规则是从以前的规则派生出来的,把p(b )挂在两边就可以了。
假设为了将条件概率放入上下文,有52张卡,第一个人已经在画Ace (事件a ),所以正在计算画Ace (事件a )的概率。
一组扑克牌中共有4个a,所以没有人提取第一个获得Ace的机会,所以是4/52。
你这就来。 我知道第一个人画了王牌,所以画画的机会就少了。 因为现在牌里只剩下少一张51张牌而不是52张牌的3个a。
因此,绘制Ace的概率表示为:
这表明事件a发生的概率和事件b的概率约为1/221的0.5%。
我们有一个全概率公式:
这个规则对于表达极限概率和条件概率之间的关系很重要。 它涵盖了基于各种事件发生结果的概率。
现在,我们涵盖了概率规则的基础。 我打算学习利他懒惰定理及其应用。
无私的小懒汉定理表示如下。
p(a )表示事件a发生概率
p(b )表示事件b发生概率
p(b|a )=p ) given P(A ) a ) ) )
p(a|b )=p ) a ) given P(B ) b ) )。
定理的应用:
机器学习中,利他懒惰定理常用于文本数据。 其应用中的一个可以用基本分类问题来表示,这个基本分类问题是电子邮件是否属于“垃圾邮件”或“ham”类。
也就是说,我们正在计算发送到此电子邮件的单词的概率。
应用我们的概率规则,这个方程可以进一步细分为:
可见,这个等式变得非常复杂和冗长。
现在是朴素无私的小懒汉模型的用处!
为了简化上面的等式,应用在朴素贝叶斯定理概念上建立的分类模型方法——朴素贝叶斯分类算法。 但是,有潜在的问题:
这是不现实的假设。 我们所有的特征都是相互独立的。 这是不现实的。 例如,电子邮件中的单词,因为很多单词是相互关联的。
通过建立这个假说,以前是什么?
现在简化为这个,
所以,你可能觉得这个很好用。 而且,你是绝对正确的。 这是机器学习中常用的理由。 特别是文本分析,比如我们上面的例子。 由于这个模型是不切实际的假设,所以并不完美,但它能提高计算效率,产生惊人的准确分类!