transformer八个境界,transformer对显卡要求

我们使用如图[1]所示的解码器架构，根据Transformer[15]中提出的架构对序列进行建模。我们提出了计算注意函数的新方法，同时学习了新的多头和传统的多头。对于给定的h (多个头部的总数)，h/2头部使用自我注意捕获全局依赖关系，而h/2头部使用基于卷积的注意捕获上下文中的依赖关系。它显式使用H/2 heads卷积对单词的上下文相关性建模。我们证明了字的上下文依赖是对传统多头的补充。传统的多头被认为是对单词-单词依赖的明确建模，并使用三个矩阵查询、键和值线性投影嵌入单词。

c .使用缩放的点注意力来处理C. Attention硬件和软件的最大问题[15]以及提交的上下文注意力。

Scaled Dot-Product Attention:我们在h/2头部使用了缩放的点和焦点。 dk维的查询(q )和键) k )和[15]维的值) v )组成

Convolution Attention:

我们提出两个模块的卷积注意。首先，它是adaptive sequence模块，用于捕获每个单词的本地上下文。另一个是自适应查询模块，它捕获输入序列的整个上下文，如图[3]所示。卷积提供了一个固定的上下文窗口，用于确定单词在本地上下文中的重要性。输入数组首先通过扩展的因果卷积核[ 14，16，17 ]，它是可深度分离的。因果卷积有助于确保没有信息泄露，但由于时间维f之间的权重在softmax中已标准化，因此单词表示是上下文中单词的加权平均值。使用扩展[23]增加上下文窗口的接受域。深度卷积有助于将参数从d2f降低到dF。其中d是单词表示的维数，f是过滤器的大小。扩展深度随机卷积是具有本地上下文的令牌表示。自适应序列模块对于序列s中跨越信道d的第t个元素计算如下的本地上下文。

自适应序列模块的输出表示单词跨越上下文f的本地上下文

自适应查询模块：通过线性层(即层和层)获取输入序列s的查询矩阵，并且输出和卷积自适应序列模块。因为这在概念上类似于使用递归神经网络[1]获得上下文，所以与线性层相乘的输出在softmax中被归一化，并使用获得线性层投影的加权和。对于长度为t的序列s，动态查询为：

d .多头保护