首页 > 编程知识 正文

qpython,python实战案例

时间:2023-05-06 18:52:24 阅读:33086 作者:4261

新人新人又来写博客了! 没有人说不开心~~~

今天我会得到一个简单的关键字提取的代码

文章内容关键词的提取可分为三个步骤:

)1)分词

)2)禁用语言

)3)关键词提取

分词方法有很多,我这里会选择常用的结巴jieba分词; 我去停止说话了。 我停止了说话。

具体代码如下。

import jieba

import jieba.analyse

#步骤1 :分词,这里使用结巴分词的全部模式

文本=“”新闻又称新闻,是一种记录报纸、电台、电视台、网络常用社会、传播信息、反映时代的文体,具有真实性、时效性、简洁性、可读性、准确性的特点。 新闻概念有广义和狭义之分。 从广义上讲,报纸、广播、电视上发表的评论和专业文章以外的一般文本都属于新闻列,包括新闻、通信、特写、速记(有的在速记列中速记)等。 狭义新闻专指信息,信息以概括叙述的方式,用比较简洁扼要的文字,迅速及时报道国内外新发生的、有价值的事实。 新闻也分为公共新闻和小道消息等。 每条新闻在结构上一般包括标题、导语、主体、背景、结语五个部分。 前三个是主要部分,后两个是辅助部分。 写法主要是叙述,有时兼作讨论、描写、评论等。

''''

Fenci_text=Jieba.cut(text ) ) ) ) ) ) )。

#print((/).Join ) (Fenci_text ) ) ) ) ) )。

第二步:禁用语言

#这里有保存要更改的文章的文件。 在一个文件中存储禁用表,与禁用表中的语言相比,删除相同的内容,并将结果存储在一个文件中

stop words={ }.from keys ([ line.RS trip ] ) ]forlineinopen('stopwords.txt ' ) ]

final=' '

for word in fenci_text:

if word not in stopwords:

if(word!='。' 爱德华!=',') :

final=final ' ' word

是打印(final )

第三步:提取关键词

a=Jie ba.analyse.extract _ tags (text,topK=5,withWeight=True,allowPOS=) )

是打印(a )

#text是要提取的文本

# topK:返回几个TF/IDF权重最大的关键字。 默认值为20。

# withWeight:是否一起返回关键字权重值。 默认值为False。

# allowPOS:只包含指定词性的单词,默认值为空,即不进行过滤。

执行结果:

runfile(d:/data/文本挖掘/xiaojieba.py )、wdir=) d:/data/文本挖掘)

新闻是指报纸、电台、电视台、网络记录社会、传播信息,在时代文体真实性、时效性、简洁性、可读性、准确性新闻的概念广义划分中,除报纸、广播、电视评论专文外,常用的文本新闻排列有有价值的事实新闻,分为一般新闻的口头新闻,每条新闻标题、导游、主体、背景结语五一两者的辅助写作方式叙述兼有讨论、描写、评论

[新闻],0.4804811569680808,[速记],0.2121107125313131,[新闻],0.20363211136040404,特写',0.20023623445504

是的,很简单吗?

以上python实现关键字提取的示例说明,是编辑与大家共享的所有内容。 希望能作为参考。 另外,我希望你支持聚米学院。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。