有关encode和encode_plus之间的区别,请参见我的另一个博客,https://blog.csdn.net/weixin _ 41862755/article/details/120070535
encode和tokenize的差异encode编码的结果包括第一个[CLS]和最后一个[SEP],因此程序的输出结果比原始sentence多两位数。 tokenize编码的结果是与sentence对应的id,没有多余的项目。 importtorchfromtransformersimportberttokenizermodel _ name=' Bert-base-un cased ' # a .在词典中分词器tokenizer=berttokenizer . mysonislaughing.' input _ ids=torch.tensor (tokenizer.encode ) sentence ) ) input_id=tokenizer.tokenize )
input_ids的结果是tensor([101、7592、1010、2026、2365、2003、5870、1012、102] ) input_id2的结果是[7592、1010、]