首页 > 编程知识 正文

publickeytoken是什么意思,vit是维生素吗

时间:2023-05-03 17:04:42 阅读:111869 作者:497

与BERT的[class] token一样,ViT引入了class token机制。 其目的是因为变换输入是一系列的路径嵌入,输出也是相同长度的序列路径特征,但是为了最后归纳为一个类别的判断,简单的方法可以使用avving。 其中,在训练时,class token的嵌入式被随机初始化,并与pos嵌入式相加,从图中可以看出,在输入transformer时,在【0】中添加了新的嵌入式,最终长度

# self.cls _ token=nn.parameter (torch.zeros (1, embed_dim ) )随机初始化classifierheadself.head=nn.linear的num _ classes (ifnum _ classes0else nn.identity ) #具体x=self.patch_embed(x ) x ) cls_ () ) ) ) )-1 ) stole cls _ tokensimplfromphilwang,thanksx=torch.)

几个问题:

ViT分类时提取第n 1个token作为分类的特征,其原理在哪里? 据说这是为了确保输入的token中的任意一个没有偏差,有可能把平均前n个token作为应该分类的特征吗?

首先,n 1的含义深处不存在。 在论文中,class token排在首位,也就是第0位

答案:

标题中第n 1个Token(classembedding )的主要特点是: )1)不基于图像内容)2)位置编码固定,这具有以下优势: 1、该token随机初始化2,该token聚合所有其他token上的信息(全球特征聚合),统计特性); 3、针对该token使用并且由于它本身不基于图像内容,因此可以避免对sequence中某个特定token的偏向性,可以保证输出不受位置编码的干扰。 ViT的作者将类嵌入式视为序列的头部,而不是尾部。 也就是说,位置是0。 因此,固定的位置编码,更准确地说,class embedding必须是第0个而不是第n 1个token。 另外,以“能否将前n个token平均化作为应分类的特征”为题的也是全局特征聚合的方式,但由于其相采用即使sequence的长度n发生变化,class embedding的位置编码依然是固定的attention机构进行特征的聚合,因此query和key

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。