策略梯度简明逐步公式推导,策略梯度简明逐步公式推导例题

策略梯度算法是众多强化学习算法的基础，但公式推导通常不集中，这里将其集中到一起，便于前后对照查看。
主要思路：

参数化表示轨迹回报的期望，由轨迹概率和轨迹回报表示希望用梯度上升形式最大化轨迹汇报的期望，所以需要求解参数化形式轨迹回报期望的梯度由于轨迹概率梯度和轨迹回报难以直接计算，引入重要性采样机制，将其转变为对数轨迹概率下的期望将轨迹拆分为策略和状态转移，其中状态转移与策略参数无关明确结果为对数策略的梯度乘以轨迹回报便可用作最终的累计回报期望的梯度进行参数更新

图片中的所有公式均依赖于《深入浅出强化学习原理入门》一书。