maml语言是什么,贝叶斯定理临床思维

本文根据文章title :

本文按文章顺序进行，只提取笔者认为的重点部分，如果有问题，请看客人提出意见并共同进步。如果你感兴趣，我建议你读biying原文。

2. MAML以及分层贝叶斯表示的回顾

2.1元学习作为基于梯度的超参数优化器

参数化元学习的目的是find几个shared参数，在面对novel task时，可以很容易地find到该task的参数。

MAML提供了一个基于梯度的元学习过程，使用相同的元学习率对每个任务获得其一步梯度后的参数，实现快速自适应。

以下是MAML的学习目标。

可以看到，多任务参数更新在内部循环，在外部循环，计算同一任务的不同样本的损失函数值，并更新了原始参数一次。由此，能够活用多任务中的梯度信息，学习common的知识，能够期待成为下一个参数更新的前提。这自然包含了在线学习的思想。因此，iclr2018的best paper基于MAML在增强学习下的复杂环境中进行了连续学习—实时动态。 2.2贝叶斯推理作为二元学习层次

首先，MAML的参数更新过程如下左图所示，表示其概率图模型，通过以下分析可以看出两者的联系。

左图的反应实际上是用上式(1)说明的。这里想强调的是(1)式的条件概率，对于我们的成本，自然地用条件概率的形式来表示。因为我们的最终输出是在给定的模型参数下样本属于各级的概率。

现在，您可以清楚地看到图1左侧的部分。右边部分实际上是左边计算图的概率图模型表现。具体地说，在某个时刻，当更新外部循环参数时，被固定在theta上。此时，对各任务来说，theta是模型参数的前提，每个任务的文件从theta中进行采样，满足iid条件，但该采样并不是随意的，根据该文件以高概率正确地分类该任务中的n个样本xjn 即，条件概率p (并且该phi是theta的各个任务中的最大后验估计(MAP ) )。

需要强调的是，图1的左图是计算图，右图是概率图，概率图反应的只是如何得到计算图的phi的后验的步骤。随后的预teta更新与PAC-bayes的可变预内容略有相似，但参数和样本的生成关系已在概率图中显示。

部分原文主要告诉我们基于MAML理解的分层贝叶斯是如何在多任务中更新模型参数theta的。 )式和)式在形式上不同，但做的是一样的。 )式是)式的抽象表示，)式是)式在MAML框架中的具体实现。坐下来比较一下。你会发现

(2)式中与phi有关的观测的条件概率对应于)式中的与任务j的更新后的参数有关的观测的条件概率；式)中phi的teta的条件概率对应于式)中的最内层循环更新第j个任务的参数phi。

3.基于梯度的元学习和分层贝叶斯间的LINK

该部分结合2.1和2.2两部分，提出了基于贝叶斯层次推理的MAML。同时，证明了MAML的内部循环更新任务参数phi支持贝叶斯推理中先验知识的更新，并改进了先验，进一步提高了MAML在多任务小样本场景中的识别性能。

3.1 MAML为empirical bayes。 (这里指的是分层贝叶斯，原文请参阅icml 1998年的多任务处理和分层贝叶斯论文。作者是Tom Heskes。 ) ) )

)式中关于phi的theta的条件概率通常难以handle。因此，使用关于theta的phi的点估计(MLE )，将)式改写如下。

在此，phi_hat表示任务j的phi的点估计。具体如下式所示。

可见，MAML的更新方式实质上等价于目标函数对元学习参数theta最大化观测样本的边缘似然p(x|theta )。实际上，利用一步或几步梯度可以通过任务j的数据采样容易地获得这个点估计。

从贝叶斯的角度理解MAML相当于以几个步骤梯度计算与任务phi相关的后验，使用该后验，任务表示从初始参数theta对观测数据的可靠估计意味着预先和任务之间的可信估计在踏实的金刚石法中，类似于在初始值附近反复寻找局部最佳解的过程。唯一的区别是最后根据这几个局部最优解更新模型的预theta。实际上，这是一个改变先验，使模型具有持续学习新事物的能力的过程，用于学习新事物的元知识是根据经验(历史任务)学习的初始化参数(点估计)。

接下来，以线性回归为例，来理解上述的趋势-关闭。

上式的目标函数是现行回归的典型表现。在sgd中设定步长参数以更新模型参数phi。

santos证明，当模型参数以theta为初始化时，在当前回归问题中，我们的目标函数为(5)式，加入了初始参数和模型参数的q范数约束。

最小化(5)式可以将其写为最大化)6)中参数phi的边缘似然。请注意，公式(5)的两个合计项分别对应于公式)的两个dxz分布。这很简单

的推导可以看出来。
现在再对比（4）式和（6）式，可以看出，在theta的领域内，关于phi最小化（4）式的结果等价于最大化（6）式。从而，我们得出结论：给观测样本一个带噪的dxz分布以及令phi服从theta领域内的dxz分布的条件下，通过（4）式经过k步梯度下降求解出来的phi就是phi的MAP解。

在线性回归中，对某一次任务而言，用MAML对其参数进行更新的结果就等价于用empirical bayes 对phi做的MAP的点估计的结果，此时得到的phi是全局最优的。
与非线性问题对应，在这种场景下MAML可以有同样的解释，唯一的区别在于，此时的phi不是全局最优而是局部最优。

这部分的最后一小块，我们来简要回顾一下对于线性任务下早停和dxz先验的关系以及在非线性任务下对参数初始化这种implicit的正则和dxz先验的关系。任何一种以截断梯度更新参数的方式都隐含着对参数后验分布的MAP点估计，对于线性问题，这个估计对应全局最优解，对于非线性问题，这个估计对应局部最优解。

最后给出MAML的贝叶斯推导下的目标函数，

这启发我们，可以用其他的meta-optimization来估计phi的后验，从而可以进一步改进算法。这也是本文的motivation的由来！

下面，给出MAML贝叶斯理解下的算法框图，

3.2 基于任务的参数的先验
由3.1我们以二次目标函数为例，已经知道关于phi通过早停得到的fast adaptation的结果与给定初始化theta下phi的先验选择相对应。从梯度的角度理解，phi的更新仅用到了一阶的信息，现在，我们考虑关于phi的二阶近似估计。

我们的目标是要在phi_star的领域内找到最优的phi。（7）式相当于是对目标函数L在phi_star处的二阶ctdbks展开，与踏实的钻石法的更新方式的表示一样。
进一步给出（7）式的参数更新公式，

这里用curvature矩阵B来近似Hessian矩阵的逆，到目前为止，关于meta-optimization的方式与踏实的钻石法完全一致。可以说，本文的思想就是用踏实的钻石法来做新的meta-optimization。但是，给它穿上了bayes的衣服，使其更加丰满了！

现在为了最小化（7）式，在给定初始值phi_0的情况下，等价于最小化下面的式子：

文章中有一些关于（9）式的讨论，感兴趣的可以自己再读下文章的这部分章节。当目标函数是二次时，（9）式退化成为（5）式。

4.提升MAML的性能

4.1 魁梧的方盒推理方法
在开始之前，有必要对魁梧的方盒近似和MAP做点估计的方法做一比较，给出下面的博客链接，比较详细：
贝叶斯推断之魁梧的方盒近似

需要注意的是，魁梧的方盒近似也是假设随机变量服从dxz分布，并求解其充分统计量对随机变量进行建模的。同时，它会利用踏实的钻石法求出的参数的MAP点估计结果。

再回到文章，我们来看看作者引入魁梧的方盒近似的原因。由上面我们知道，MAML对参数的后验做点估计。考虑到有可能phi关于theta的条件概率不是delta函数，此时MAML得到的点估计就会存在偏差。为了克服这个问题，一种方式就是对参数的分布建立一个在局部最优点附近的dxz分布，不仅估计均值（点估计），也估计方差，并从这个分布中采样参数，对参数进行平均来得到模型参数的后验估计。以此来降低估计的参数的偏差。而魁梧的方盒近似正是具有我们希望的性质的这样一种求解技术！这里再列出文章中的原话，以防由于笔者理解的偏差带偏听众：

注意文中原文的意思是，会形成一个局部二次近似！

有了以上的认知，我们就可以在MAML对基于任务的phi（fast adaptation）的更新上融入这种uncertainty。
对（2）式，我们假设其有一个well的点估计phi_star，我们在其领域内对其做ctdbks二阶展开，

其中，Hj是第j个任务下代价函数（似然函数）对参数phi的Hessian矩阵。魁梧的方盒近似利用MAP的点估计phi_star作为局部最优，并在该解附近引入
方差构建了关于局部最优解的二次近似，使其对最优解的扰动有一定容忍度，这实际上进一步放宽了MAML的原始假设—p(phi|theta)在最优解附近满足delta函数。将上式代入（2）式，得到用魁梧的方盒近似的MAML的目标函数：

这一小节的最后，我给出文章中关于（11）式的一些说明，结合上面的介绍和讲解，很好理解。

4.2 用曲率信息提升MAML性能
文章分析了求解4.1中代价函数的困难，并提出用近似的fisher信息矩阵来求解（11）式中的Hessian矩阵的行列式。
下面是fast adaptation基于任务的参数phi的算法：

MAML作为一个fundmental的方法，一经提出，就已经有至少三篇顶会基于该方法做了非常有趣的工作！希望以后能够多多出这样的算法，更希望看到我们国人做出这类fundmental的工作！！！共勉！加油！