首页 > 编程知识 正文

transformer八个境界,transformer对显卡要求

时间:2023-05-05 07:21:39 阅读:113776 作者:2149

我们使用如图[1]所示的解码器架构,根据Transformer[15]中提出的架构对序列进行建模。 我们提出了计算注意函数的新方法,同时学习了新的多头和传统的多头。 对于给定的h (多个头部的总数),h/2头部使用自我注意捕获全局依赖关系,而h/2头部使用基于卷积的注意捕获上下文中的依赖关系。 它显式使用H/2 heads卷积对单词的上下文相关性建模。 我们证明了字的上下文依赖是对传统多头的补充。 传统的多头被认为是对单词-单词依赖的明确建模,并使用三个矩阵查询、键和值线性投影嵌入单词。

c .使用缩放的点注意力来处理C. Attention硬件和软件的最大问题[15]以及提交的上下文注意力。

Scaled Dot-Product Attention:我们在h/2头部使用了缩放的点和焦点。 dk维的查询(q )和键) k )和[15]维的值) v )组成

Convolution Attention:

我们提出两个模块的卷积注意。 首先,它是adaptive sequence模块,用于捕获每个单词的本地上下文。 另一个是自适应查询模块,它捕获输入序列的整个上下文,如图[3]所示。 卷积提供了一个固定的上下文窗口,用于确定单词在本地上下文中的重要性。 输入数组首先通过扩展的因果卷积核[ 14,16,17 ],它是可深度分离的。 因果卷积有助于确保没有信息泄露,但由于时间维f之间的权重在softmax中已标准化,因此单词表示是上下文中单词的加权平均值。 使用扩展[23]增加上下文窗口的接受域。 深度卷积有助于将参数从d2f降低到dF。 其中d是单词表示的维数,f是过滤器的大小。 扩展深度随机卷积是具有本地上下文的令牌表示。 自适应序列模块对于序列s中跨越信道d的第t个元素计算如下的本地上下文。

自适应序列模块的输出表示单词跨越上下文f的本地上下文

自适应查询模块:通过线性层(即层和层)获取输入序列s的查询矩阵,并且输出和卷积自适应序列模块。 因为这在概念上类似于使用递归神经网络[1]获得上下文,所以与线性层相乘的输出在softmax中被归一化,并使用获得线性层投影的加权和。 对于长度为t的序列s,动态查询为:

d .多头保护

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。