首页 > 编程知识 正文

python为什么叫爬虫,python爬虫入门案例

时间:2023-05-05 09:38:52 阅读:134376 作者:1056

这个句子是入门级爬行动物,老司机们不需要看。

这次主要是新闻标题、作者、来源、发布时间、新闻正文

首先打开163个网站,我们随便选择分类。 这里我选择的分类是国内新闻。 然后,右键单击查看源代码,发现源代码中没有页面中间的新闻列表。 这表明本页面采用了异步方式。 也就是说,是通过api接口获取的数据。

确认后,使用F12打开谷歌浏览器的控制台,点击Network。 我们一直往下拉,出现在了右侧。 '…special/00804 kva/cm _ Guo nei _ 03.js? ……等地址,点击Response,就知道这正是我们要找的api界面。

你会发现这些接口的地址有一定的规律。 “cm_guonei_03.js”、“cm_guonei_04.js”是显而易见的。

3358 temp.163.com/special/00804 kva/cm _ Guo nei _0(* ).js

上面的连接是我们这次想要求的地址。

接下来,我只需要python的两个库:

requestsjsonbeautifulsouprequests库用于进行网络请求,简言之,就是模拟浏览器以获取资源。

我们收集api接口,其格式为json,所以使用json库进行分析。 BeautifulSoup用于解析html文档,可以方便地检索指定div的内容。

下面开始编写我们爬虫:

第一步是导入上述三个包。

importjsonimportrequestsfrombs4importbeautifulsoup接下来定义如何检索指定页码中的数据。

defget_page(page ) : URL _ temp=' http://temp.163.com/special/00804 kva/cm _ Guo nei _0{ }.js ' return http://.com=2003 360 continue content=response.text #获取响应正文_content=formatcontent(content ) json字符串格式result=JSON.Loads

然后对数据进行分析,您会发现下图中包含的是需要捕获的标题、发布时间和新闻内容页面。

已经获取了内容页面的url,接下来捕获新闻正文。

在抓住正文之前,需要分析正文的html页面,找到正文、作者和源在html文档中的位置。

3文章来源在文档中的位置为http://www.Sina.com/。

3358www.Sina.com/位置是id = “ne_article_source” 的 a 标签

3358www.Sina.com/位置是作者

在下一次面试中收集这三个内容的代码:

defget_content(URL ) : source=' ' author=' ' body=' ' resp=requests.get (URL ) ) ) ) ) ) ody ) source=bs4.find(a ),id='ne_article_source ' ).get_text(author=bs4.find ),class _=' EP-EP

那么,今后当然要保存它们。 为了方便,我直接以文本形式保存。 最终结果如下。

格式为json字符串,“标题”:“日期”、“URL”、“源”、“作者”、“正文”。

class = “ep-editor” 的 span 标签

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。