首页 > 编程知识 正文

中文的自然语言处理函数库,自然语言处理与知识发现

时间:2023-05-06 00:51:13 阅读:111912 作者:4404

介绍自然语言处理中文本的token和tokenization 1.1的概念和工具tokenization是人们常说的分词,每个分开的词称为token。

有很多常见的分词工具。 例如:

jieba分词: https://github.com/fxsjy/jieba

清华大学分词工具thu lac:https://github.com/th unlp/thu lac-python

1.2英语分词方法将句子转换为语言

例如,我喜欢深度学习。 分为“我、爱、深度学习”

把句子转换成一个字

例如,我爱深度学习的token是[我,爱,深度,度,学,习]

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。