选自NIPS2016
机器心脏编译
参与:单鞋垫,昏睡背包
在NIPS 2016大会上,剑桥大学信息工程教授邹斌加赫拉马尼向我们介绍了mhdxb神经网络的发展。从问题的研究背景和应用出发,介绍了mhdxb神经网络的起源、黄金时代和后期复兴,并介绍了各个发展阶段的几个重点研究。它是一个简洁的学习材料,可以帮助你快速深入地理解mhdxb神经网络。
P4:80年代的研究背景
003010发表于1985年,1986年反向传播网络论文发表,随后1987年PDP大量出现。该领域过去也被称为连接机制,NIPS是该领域的主要学术会议。
P5-P7:神经网络与深度学习导论
神经网络和深度学习系统在许多基准测试任务中表现良好,但也存在以下缺陷:
需要大量数据(通常是数百万个样本)
培训和部署是计算密集型的(云GPU资源)
不确定性没有得到很好的体现。
经常被对抗样本欺骗
我对优化非常挑剔:非凸架构选择、学习程序、初始化等。还需要专家知识和实验。
过程黑箱,无法解释,缺乏透明度,结果难以信任。
P8-12:MHDXB在这方面有何帮助?
处理参数不确定性的所有来源
处理结构不确定性的能力
mhdxb定理告诉我们从数据(可测量)中做出一些关于假设(不确定量)的推论。
学习和预测可以看作是推理的形式。
修正模型和预测不确定性:让系统在不知道的时候知道。
自动模型复杂性控制和结构学习(贝叶斯奥卡姆剃刀)
需要明确的是,“mhdxb”属于算法的范畴,而不是模型类。任何定义的模型都可以使用mhdxb方法。
P13:MHDXB神经网络
P14-16:MHD XB神经网络的早期历史
mhdxb神经网络的早期历史可以从以下论文中了解到:
约翰登克、丹尼尔施瓦茨、聪明的白猫维特纳、开放钻石索尔拉、理查德霍华德、劳伦斯杰克尔和约翰霍普菲尔德。大型自动学习、规则提取和泛化。复杂系统,1(5):877-922,1987。
纳夫意大利提什比,埃丝特莱文,和开放钻石A Solla。铺设网络:预测和推广可能性的一致会议。在ij CNN,1989年。
.
P17-20 MHD XB神经网络的黄金时代
大卫JC麦凯在《神经计算》上发表的一篇文章《反向传播网络的实用贝叶斯框架》拉开了这一时期的序幕。
尼尔,1995年在多伦多大学的博士论文:神经网络的贝叶斯学习。本文还建立了mhdxb神经网络(BNN)、高斯过程和自动相关确定机制(ARD)之间的关系。
P21-24高斯过程与mhdxb神经网络
高斯过程可用于回归、分类、排序等。
将hsdqc动力学(MCMC的一种形式)与随机梯度下降(SGD)相结合,得到了一种基于微批次SGD的新方法。
高度可扩展的近似 MCMC 算法。这样一来,mhdxb推断就能像运行嘈杂的 SGD 那样简单。
一个带有一层隐藏层和无数隐藏单元的神经网络和权重高斯先验
MacKay 和 Neal 的贡献将特征与架构选择与高斯过程联系起来
P25- 28 mhdxb神经网络中的变分学习(variational learning)
Hinton 的一篇论文推导出一个mhdxb网络权重的对角高斯变分近似,但是用最小描述长度信息理论语言进行描述。
P29 随机梯度朗格文动力学(Langevin Dynamics)
P30:mhdxb神经网络的复兴
P31-32 概率方法什么时候变得非常重要?
学习的很多方面都非常依赖于不确定性的细致表征
P33 结论
概率模型为建立能从数据中学习的系统提供了通用框架
mhdxb神经网络有很长的历史并且正在经历着复兴的浪潮
P35-36 模型比较及学习模型结构
P37-39 mhdxb奥卡姆剃刀(Bayesian Occam's Razor)
模型类别太过简单就可能无法生成数据集。
模型类别较复杂可以生成很多可能的数据集,所以它们也不太可能随机生成某个特定的数据集。
P40 模型比较和奥卡姆剃刀
P41-42 边缘似然 (marginal likelihood) 和后验(posteriors)的近似方法(Approximation Methods)
拉普拉斯近似(Laplace Approximation)
mhdxb信息准则(Bayesian Information Criterion,BIC)
变分近似(Variational approximations)
期望传播 (Expectation Propagation,EP)
马尔科夫蒙特卡洛方法(Markov chain Monte Carlo methods,MCMC)
序列蒙特卡洛方法(Sequential Monte Carlo,SMC)
精确抽样(Exact Sampling)
……