qpython,python实战案例

新人新人又来写博客了！没有人说不开心~~~

今天我会得到一个简单的关键字提取的代码

文章内容关键词的提取可分为三个步骤：

)1)分词

)2)禁用语言

)3)关键词提取

分词方法有很多，我这里会选择常用的结巴jieba分词；我去停止说话了。我停止了说话。

具体代码如下。

import jieba

import jieba.analyse

#步骤1 :分词，这里使用结巴分词的全部模式

文本=“”新闻又称新闻，是一种记录报纸、电台、电视台、网络常用社会、传播信息、反映时代的文体，具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义和狭义之分。从广义上讲，报纸、广播、电视上发表的评论和专业文章以外的一般文本都属于新闻列，包括新闻、通信、特写、速记(有的在速记列中速记)等。狭义新闻专指信息，信息以概括叙述的方式，用比较简洁扼要的文字，迅速及时报道国内外新发生的、有价值的事实。新闻也分为公共新闻和小道消息等。每条新闻在结构上一般包括标题、导语、主体、背景、结语五个部分。前三个是主要部分，后两个是辅助部分。写法主要是叙述，有时兼作讨论、描写、评论等。

''''

Fenci_text=Jieba.cut(text ) ) ) ) ) ) )。

#print((/).Join ) (Fenci_text ) ) ) ) ) )。

第二步：禁用语言

#这里有保存要更改的文章的文件。在一个文件中存储禁用表，与禁用表中的语言相比，删除相同的内容，并将结果存储在一个文件中

stop words={ }.from keys ([ line.RS trip ] ) ]forlineinopen('stopwords.txt ' ) ]

final=' '

for word in fenci_text:

if word not in stopwords:

if(word！='。' 爱德华！='，') :

final=final ' ' word

是打印(final )

第三步：提取关键词

a=Jie ba.analyse.extract _ tags (text，topK=5，withWeight=True，allowPOS=) )

是打印(a )

#text是要提取的文本

# topK:返回几个TF/IDF权重最大的关键字。默认值为20。

# withWeight:是否一起返回关键字权重值。默认值为False。

# allowPOS:只包含指定词性的单词，默认值为空，即不进行过滤。

执行结果：

runfile(d:/data/文本挖掘/xiaojieba.py )、wdir=) d:/data/文本挖掘)

新闻是指报纸、电台、电视台、网络记录社会、传播信息，在时代文体真实性、时效性、简洁性、可读性、准确性新闻的概念广义划分中，除报纸、广播、电视评论专文外，常用的文本新闻排列有有价值的事实新闻，分为一般新闻的口头新闻，每条新闻标题、导游、主体、背景结语五一两者的辅助写作方式叙述兼有讨论、描写、评论

[新闻]，0.4804811569680808，[速记]，0.2121107125313131，[新闻]，0.20363211136040404，特写'，0.20023623445504

是的，很简单吗？

以上python实现关键字提取的示例说明，是编辑与大家共享的所有内容。希望能作为参考。另外，我希望你支持聚米学院。