lstm长短期记忆网络,长短记忆神经网络

专项3 LSTM–长短期记忆网络一、理解LSTM

一种特别形式的RNN，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

主线取决于输入和忘记

LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的"处理器"，这个处理器作用的结构被称为cell。

一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

门：一个sigmoid层和一个点乘（输出0-1代表有多少信息能够流通）

是一进二出的工作原理，在反复运算下解决神经网络中长期存在的大问题。LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。

各研究者根据LSTM纷纷提出了自己的变量版本，这就让LSTM可以处理千变万化的垂直问题。

主要应用：基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。

二、门 2.1 忘记门

通过查看h（t-1）和x（t）信息来输出一个0-1之间的向量，该向量里面的0-1值表示细胞状态C_{t-1}中的哪些信息保留或丢弃多少。0表示不保留，1表示都保留。

2.2 输入门

决定给cell添加哪些新的信息。首先，利用和通过一个称为输入门的操作来决定更新哪些信息。然后利用和通过一个tanh层得到新的候选cell信息，这些信息可能会被更新到cell信息中。

2.3 输出门

更新完cell状态后需要根据输入的和来判断输出细胞的哪些状态特征

将输入经过一个称为输出门的sigmoid层得到判断条件，然后将细胞状态经过tanh层得到一个-1~1之间值的向量。

该向量与输出门得到的判断条件相乘就得到了最终该RNN单元的输出。

三、变式

（待补充）