中文的自然语言处理函数库,自然语言处理与知识发现

介绍自然语言处理中文本的token和tokenization 1.1的概念和工具tokenization是人们常说的分词，每个分开的词称为token。

有很多常见的分词工具。例如：

jieba分词： https://github.com/fxsjy/jieba

清华大学分词工具thu lac:https://github.com/th unlp/thu lac-python

1.2英语分词方法将句子转换为语言

例如，我喜欢深度学习。分为“我、爱、深度学习”

把句子转换成一个字

例如，我爱深度学习的token是[我，爱，深度，度，学，习]