1 .前言
本文主要介绍了如何可视化和分析python爬行动物及其数据。 这次的介绍网站是(https://www.Duan wenxue.com/jingdian/zheli/)
2 .数据爬网
2.1爬网数据定位
打开我们要爬的网页,右键单击并选择复选框,然后单击窗口左上角的箭头,可以看到我们要爬的内容。
2.2爬行动物的实现方法
要检索网页,必须首先向网页发送请求,然后使用get方法捕获数据。 例如,获取https://www.Duan wenxue.com/jingdian/zheli /的内容。)
导入请求
URL=' https://www.Duan wenxue.com/article/5034441.html '
DOC=requests.get(URL )
打印(doc.text ) 1
2
3
4
该方法获得的数据为整个网页的源代码,然后从源代码中找到数据并提取。 Beautiful Soup是python的库,最重要的功能是从网页中捕获数据。 (例如,我得到https://www.Duan wenxue.com/article/5035160.html的散文)
导入请求
from bs4 import BeautifulSoup
URL=' https://www.Duan wenxue.com/article/5034441.html '
html=requests.get(url )
html.encoding='gbk '
DOC=beautifulsoup(html.text,' lxml ' ) ) ) ) )。
a=doc.find(span,) id ) : ) audio-span ) )
c=doc.find(div,) id (: ) shangdiv ) )
a.decompose删除不需要的信息
c.decompose () )。
cont=doc.find(div,) class (: ) article-content ) (.findall ) (p ) )
content=' '
for i in cont:
打印(I.text ) 1
2
3
4
5
6
7
8
9
10
11
12
13
14
输出结果:
人生的当下,生活只有形式在奋斗。 ——余昌开
现在是人生为实现梦想而奋斗的时候了。 ——余昌开
人从现在开始,要努力奋斗,实现人生理想。 ——余昌开
人活着最现实的形态,就是现在奋斗的人生的美好进行中。 ——余昌开
未经《短文学》书面授权严禁转载著作权作品,违者将被追究法律责任。
3 .数据可视化分析
数据可视化是数据分析的重要部分,可视化数据,更直观的表达使数据更客观更有说服力。
matplotlib是一个制作图表的工具包,是一个Python 2D图形库,可以在各种平台上以各种硬拷贝格式和交互环境生成出版质量的图形。
3.1统计理财学网各类文章
条形图:
PLT.rcparams [ ' font.sans-serif ' ]=[ ' simhei ' ]
PLT.figure (fig size=(10,10 ) )
PLT.xticks(rotation=45 ) )。
plt.title (各种文章数) ) #标题
plt.xlabel (文章类型) ) #横坐标名称
plt.ylabel ('数量') #纵坐标名称
PLT.bar(x,y ) )。
for x,yinzip(x,y ) : plt.text(x ) x,y,' { f } '.format (f=y ),ha='center ',va='bottom ' )
PLT.show(1
2
3
4
5
6
7
8
9
10
结果:
饼图:
设定PLT.figure (fig size=(30,30 ) ) #大小
PLT.pie(y,labels=x,autopct='%1.1f%%”)
PLT.axis(equal ) )。
PLT.show(1
2
3
4
结果:
观察条形图和饼图,短文学中,《散文随笔》、《心情随笔》、《散文诗》、《散文文字》、《古典语录》类文学作品占大部分(82 ),其他类型的作品占小部分(18 )
3.2分析某类文章
分析励志文章的标题,选择从标题的重点词汇中生成词云,反映了这类文章的大致内容走向了哪些方面。
代码如下。
stopwords={ '你','我','的','自己' }#去除无用的语言
word _ cut=Jie ba.cut (word _ content ) )。
word_cut_join=''.join(word_cut ) #用空格连接分词
#生成单词组
WC=word cloud (font _ path=' simsun.TTC ',#字体max_words=100,#云中显示的最大字数# mask=mask_img,#背景图像stop
我是PLT.imshow(WC )
拆下PLT.AXIS(off ) #坐标轴
PLT.savefig(title.jpg ) )。
PLT.show(1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
结果:
多次出现的大学有“河南”、“科技”、“大学”、“农学院”。
以上是正文的全部内容,代码只包含主要部分。 关于数据的可视化还有其他几种方法。 具体来说,可以看到python如何使用Matplotlib画画。
文章来源为: blog.csdn.net,作者: Tbaodeng_T,版权归原作者所有。 转载的情况下,请联系作者。
原文链接: blog.csdn.net/tbao Deng/article/details/111825063