wavenet时间序列,网络语言wave

我以前在computer vision的方向上研究，但现在变成了语音的方向。这个时间我一直在看WaveNet。了解原理和代码，记录下来，为后期的遗忘做准备吧。链接至： WaveNet论文链接、代码链接、官方博客链接。

WaveNet是一种端到端的文本到速度(TTS )模型。这是一种生成模型，如初始的pixel RNN和Pixel CNN，它会一次生成一个声音元素。 WaveNet中最重要的概念是http://www.Sina.com/(dialatedcausalconvolutions )。

首先介绍因果卷积。要理解因果卷积，首先要理解因果性的概念。这里请参考只有在输入信号激励系统时才会出现输出响应的因果关系概念。也就是说，因果系统的响应在输入信号激励系统以前不会出现；也就是说，因果关系系统的输出现在只与过去的输入有关，与将来的输入无关。因果卷积意味着WaveNet生成时刻t的要素时，只能使用时刻0到时刻t-1的要素值。如下图所示，在WaveNet中被利用，output输出仅利用前面的要素来生成。

由于声音文件为时间上的一维排列，因此在16KHz的采样率的文件中，每秒存在16000个要素，但是上述因果卷积的感知范围非常小，即使将多个层叠加在一起，为了生成t时刻的要素也只能使用较少的数据。为了扩展卷积的感知范围，WaveNet采用堆栈，采用stack多层带孔dilated卷积在网络中添加的带孔卷积如下图所示。

整个生成过程的动态图如下，

虽然可以很好地理解WaveNet的生成原理，但是代码实现部分很难阅读。特别是因果卷积的实现，采用了很多小技巧，需要仔细阅读。关于官方的开源代码进行整理。