首页 > 编程知识 正文

nlp自然语言处理入门,python自然语言处理书籍推荐

时间:2023-05-05 11:45:01 阅读:107006 作者:4117

本Chat首先简要介绍了中文分词在自然语言处理中的概念和应用场景。 然后通过两个简单的小例子给出了算法的步骤。 然后编写了Python代码,并在《红楼梦》上进行了测试。 最后总结了编写代码时遇到的问题,以避免读者犯同样的错误。

目录:

分词算法的概念

分词算法的应用

具体算法

Python的实现

例: 《红楼梦》分词

1 .分词算法的概念

汉语分词是指将汉语句子中的词汇按使用时的语义切分的过程,即把汉字的排列切分成一个个具有独立意义的词。 在英语文章中,单词之间以空格作为自然的分隔符,而汉语中只有字、句、段可以很容易地用明显的分隔符来分隔,而只有单词没有形式上的分隔符。 英语中也同样存在短语切分的问题,但在单词的水平上,中文比英语要复杂和困难得多。

分词算法是自然语言处理(Nature Language Processing,NLP )的基础。 完整的中文自然语言处理过程一般包括分词、词性标注、命名实体识别、依存句法分析、语义分析五项中文处理核心技术。

2 .分词算法的应用

从搜索引擎和机器翻译两个方面介绍分词算法的应用。

2.1搜索引擎

例如,在百度上搜索“科比詹姆斯”,在搜索前将“科比詹姆斯”五个字分割开来,变成“科比”和“詹姆斯”两个字,最终将“科比”和“詹姆斯”两个字不是直接搜索5个字符。

2.2机器翻译

例如,有道词典翻译为“研究生命的起源”。 让机器直接翻译这6个字的话一定翻译不出来。 从结果中可以看出,翻译前将“研究生命的起源”六个字分割为“研究”、“生命”和“起源”三个词,并翻译组合而成。

2.3手写英语

书上的英语单词之间总是有空间,但手写英语之间的空间不是那么明显。 这也是需要分词的场景。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。