首页 > 编程知识 正文

htmlencode,python中decode函数

时间:2023-05-06 12:37:36 阅读:112099 作者:3616

有关encode和encode_plus之间的区别,请参见我的另一个博客,https://blog.csdn.net/weixin _ 41862755/article/details/120070535

encode和tokenize的差异encode编码的结果包括第一个[CLS]和最后一个[SEP],因此程序的输出结果比原始sentence多两位数。 tokenize编码的结果是与sentence对应的id,没有多余的项目。 importtorchfromtransformersimportberttokenizermodel _ name=' Bert-base-un cased ' # a .在词典中分词器tokenizer=berttokenizer . mysonislaughing.' input _ ids=torch.tensor (tokenizer.encode ) sentence ) ) input_id=tokenizer.tokenize )

input_ids的结果是tensor([101、7592、1010、2026、2365、2003、5870、1012、102] ) input_id2的结果是[7592、1010、]

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。