在西瓜书的第二章,讲了几种常用的对数据集进行划分而产生训练集 S mathit{S} S 和测试集 T mathit{T} T 的方法,其中就有一个自助法。
自助法:其实就是通过有放回采样产生训练集,没有被采样到的作为测试集。书中描述,给定包含m个样本的数据集 D mathit{D} D ,每次从 D mathit{D} D 中采样一个样本,拷贝后放入 D ′ mathit{D'} D′ 中,采样m次,得到包含m个样本的数据集 D ′ mathit{D'} D′。
明显D中有一部分样本会多次出现,而另一部分样本不出现。
于是估计样本在m次采样中始终不被采到的概率
lim m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 lim_{mrightarrow infty }{left ( 1-frac{1}{m} right )}^{m}rightarrowfrac{1}{e}approx 0.368 limm→∞(1−m1)m→e1≈0.368
这个公式不算困难,只要你记得下面两个重要的极限公式中的第二个,稍加推导就可以推导出来。
两个重要的极限公式
对于书上所给的公式
另 m = 1 t m = frac{1}{t} m=t1 ,那么书上的公式就转换如下:
lim t → 0 ( 1 − t ) 1 t lim_{trightarrow0} {left ( 1-t right )}^{frac{1}{t}} limt→0(1−t)t1
= lim t → 0 ( ( 1 + ( − t ) ) 1 − t ) − 1 =lim_{trightarrow0}{left ({left ( 1+(-t) right )}^{frac{1}{-t}}right )}^{-1} =limt→0((1+(−t))−t1)−1
因为这里t趋近于0和-t趋近于0是一样的
所以上式= 1 e ≈ 0.368 frac{1}{e}approx0.368 e1≈0.368