介绍自然语言处理中文本的token和tokenization 1.1的概念和工具tokenization是人们常说的分词,每个分开的词称为token。
有很多常见的分词工具。 例如:
jieba分词: https://github.com/fxsjy/jieba
清华大学分词工具thu lac:https://github.com/th unlp/thu lac-python
1.2英语分词方法将句子转换为语言
例如,我喜欢深度学习。 分为“我、爱、深度学习”
把句子转换成一个字
例如,我爱深度学习的token是[我,爱,深度,度,学,习]