幼儿英语教育论文翻译,ieee期刊论文翻译格式

Generative Adversial Imitation learning Abstract

考虑从示例专家行为中学习策略，而不进行交互或者与专家或访问增强学习的信号。一种方法是恢复专家的成本函数与逆强化学习，然后从具有强化学习的成本函数提取policy。这种方法是间接的并且可能很慢。我们提出了一个新的通用框架来直接提取一个来自数据的policy，来逼近是通过反向强化学习获得的强化学习。我们表明，我们框架的某个实例在模仿学习和生成对抗网络之间进行了类比，从中我们推导出一种无模型的模仿学习算法，该算法在模拟大型复杂行为时，比现有的无模型方法在高维环境下获得显着的性能提升。

--------------------前几部分讲了传统IRL的方法，将其省略，重点是：

GAIL

正如第4节所讨论的那样，常数正则化器导致模拟学习算法与占用度量完全匹配，但在大型环境中难以处理。另一方面，线性成本函数类（10）的指标正则化导致算法无法精确匹配占用度量而无需仔细调整，但在大型环境中易于处理。我们提出以下新的成本正规化器，结合了两者的优点，我们将在接下来的部分中展示：

该正则化器对成本函数c进行低惩罚，为专家状态 - 动作对分配一定数量的负成本; 但是，如果c给专家分配大的成本（接近零，这是ψGA可行成本的上限），那么ψGA将严重惩罚c。 ψGA的一个有趣特性是它是专家数据的平均值，因此可以适应任意专家数据集。由第4节中描述的线性学徒学习算法使用的指标正则化δC总是固定的，并且不能像ψGA那样适应数据。然而，ψGA和δC之间最重要的区别可能是δC力成本位于由有限多个基函数跨越的小子空间中，而ψGA允许任何成本函数，只要它在任何地方都是负的。

我们选择ψGA的动机是来自：

其中最大范围超过判别分类器D：S×A→（0,1）。等式（14）是区分π和πE的状态 - 动作对的二元分类问题的最佳负对数损失。事实证明，这种最佳损失是（直到恒定的变化）Jensen-Shannon散度：

DJS (ρπ , ρπE ) =DKL (ρπ k(ρπ + ρE )/2) + DKL (ρE k(ρπ + ρE )/2)

这是分布之间的平方度量[9,19]。将因果熵H作为policy的正则化因子，由λ≥0控制，我们得到一种新的模仿学习算法：

找到一种策略，其占用率最小化Jensen-Shannon与专家的差异。等式（15）最小化占用度量之间的真实度量，因此，与线性学徒学习算法不同，它可以精确地模仿专家政策。

方程（15）在模仿学习和生成对抗网络之间建立了联系[9]，它通过混淆判别分类器D来训练生成模型G.D的工作是区分G生成的数据的分布和真实的数据分布。当D无法区分G生成的数据和真实数据时，G已成功匹配真实数据。在我们的设置中，学习者的占用度量ρπ类似于G生成的数据分布，专家的占用度量ρπE类似于真实的数据分布。
现在，我们提出一种实用的算法，我们称之为生成对抗模仿学习（算法1），用于求解方程。（15）在大型环境中进行无模型模仿。显然，我们希望找到表达式的鞍点（π，D）

为此，我们首先引入π和D的函数逼近：我们将拟合具有权重θ的参数化策略πθ，以及具有权重w的鉴别器网络Dw：S×A→（0,1）。然后，我们在w上的Adam [12]梯度步骤之间交替以增加（16）中的D，并且在θ上的TRPO步骤减小式（16）中的π。 TRPO步骤与Ho等人的学徒学习算法的目的相同。 [11]：它可以防止政策因政策梯度中的噪音而发生太大变化。鉴别器网络可以被解释为本地成本函数，具体地向策略提供学习信号，采取相对于成本函数降低预期成本的策略步骤c（s，a）= log D（s，a）将朝向类似于专家的行动空间区域，由鉴别者分类。

Experiment

我们针对基于9个物理的控制任务的基线评估了算法1，范围从经典RL文献中的低维控制任务 - 车轮[2]，acrobot [8]和山地车[17]到困难的高维诸如3D人形运动之类的任务，最近才通过无模型强化学习来解决[27,26]。使用MuJoCo [30]模拟除经典控制任务之外的所有环境。有关所有任务的完整说明，请参阅附录B.每个任务都附带一个真正的成本函数，在OpenAI Gym [5]中定义。我们首先通过在这些真实成本函数上运行TRPO [26]来创建专家策略，从而为这些任务生成专家行为。然后，为了评估关于专家数据的样本复杂性的模仿性能，我们从专家策略中采样了不同轨迹计数的数据集。 构成每个数据集的轨迹各自由大约50个状态 - 动作对组成。我们针对三个基线测试了算法1：

1.行为克隆：状态 - 动作对的给定数据集分为70％的训练数据和30％的验证数据。该策略使用监督学习进行训练，使用Adam [12]和128个示例的小型数据集，直到验证错误停止减少。
2.特征期望匹配（FEM）：Ho等人的算法 [11]使用Abbeel和Ng [1]的成本函数类Clinear（10）
3.博弈论学徒学习（GTAL）：Ho等人的算法 [11]使用Syed和Schapire的成本函数类Cconvex（10）[28]

我们使用所有算法为所有任务训练相同神经网络架构的策略：两个隐藏层，每个100个单元，其间具有tanh非线性。 算法1的鉴别器网络也使用相同的架构。 在每次试验开始时，所有网络总是随机初始化。对于每项任务，我们给FEM，GTAL和算法1提供了完全相同的环境交互量以进行训练。

图1描述了结果，附录B中的表格提供了精确的性能数字。我们发现，在经典的控制任务（cartpole，acrobot和mountain car）上，与FEM和GTAL相比，行为克隆在专家数据效率方面受到了影响，而FEM和GTAL在很大程度上能够产生具有近乎专家性能的策略。数据集大小。在这些任务中，我们的生成对抗算法总是产生比行为策略克隆，FEM和GTAL更好的策略。然而，行为克隆在Reacher任务上表现出色，在该任务上，它比我们的算法更具样本效率。根据单侧Wilcoxon等级，我们能够使用因果熵正则化稍微改善我们的算法在Reacher上的表现 - 在4轨迹设置中，从λ= 0到λ= 10-3的改善在训练重播方面具有统计显着性。 -sum测试，p = .05。我们没有对所有其他任务使用因果熵正则化。

Discussion

正如我们所展示的，我们的方法在专家数据方面通常具有相当的样本效率。然而，就训练期间的环境交互而言，它不是特别有效的样本。估算仿制目标梯度所需的此类样本数量（18）与TRPO从强化信号中训练专家策略所需的数量相当。我们相信，通过使用行为克隆初始化策略参数，我们可以显着提高算法的学习速度，这完全不需要环境交互。从根本上说，我们的方法是无模型的，因此通常需要更多的环境交互基于模型的方法。例如，引导式成本学习[7]建立在引导式政策搜索[13]的基础上并继承其样本效率，但也继承了模型通过迭代拟合的时变线性动力学很好地逼近的要求。有趣的是，我们的算法1和指导成本学习在政策优化步骤和成本拟合（我们称之为鉴别器拟合）之间交替，即使这两种算法的推导完全不同。我们的方法建立在IRL的大量工作基础上[31,1] ，29,28]，因此，就像IRL一样，我们的方法在培训期间不会与专家互动。我们的方法随机探索，以确定哪些行动使政策的占用度量更接近专家，而与专家交互的方法，如DAgger [24]，可以简单地向专家询问此类行为。最后，我们认为，将精心挑选的环境模型与专家互动相结合的方法将赢得两位专家的样本复杂性数据和环境互动。