首页 > 编程知识 正文

vi替换字符串命令,全能字符串批量替换机

时间:2023-05-05 04:08:39 阅读:110497 作者:4441

wordninja是一种对连续的英语字符串进行分词的工具,包括:

importwordninjastr=' ilovechinaandilovetheworld ' print (word ninja.split ((str ) )、' I '、' love '、' China '、'。 world ' ] probabilisticallysplitconcatedwordsusingnlpbasedonenglish

gram frequencies

wordninja是基于wiki百科全书的频率进行分词的。 英语语言中合理认为分布遵循吉夫定律(zipf’slaw ),根据出现概率由高到低编写词典,达到分词的目的。

但是,使用原来的词典进行分词时,可能会对特定的词发生错误的分割。 例如

importwordninjastr=' huaweicompanyandlenovo ' print (word ninja.split ((str ) ) () Hua )、() wei )、) company、) Anany 根据Github的建议,可以通过找到wordninja_words.txt.gz文件手动添加自定义语言。 此文件路径位于源代码中。

解压缩该文件得到的txt,以每行一个英语单词的形式,按照英语数据中出现频率从高到低的顺序排列,因此只需要在该文件中添加特有的单词,从头插入即可。

插入华为和联想,重新包装成. gz格式,放在原来的位置。

再次运行刚才的示例

importwordninjastr=' huaweicompanyandlenovo ' print (word ninja.split (str ) ) #['huawei ',' company ',' and ',' and '

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。