首页 > 编程知识 正文

linux编程,python豆瓣电影爬虫

时间:2023-05-06 15:22:49 阅读:17271 作者:2669

教程将进入下一步:洛凉博客

大家可以登录www.80s.tw网站,观察页面菜单。

一开始我想爬菜单下的所有页面。 我觉得还是有点复杂。

image.png

但是一开始是匹配的,我得到了这些菜单的链接。

用单线程写这些一定很复杂,所以放弃了。 最后攻击了电影菜单下。

最初是用正则匹配迅雷(磁力)链接的,但匹配有点问题。

最后用BS4直接解决了。

看看代码吧。

导入请求

来自bs4导入基础软件

headers={ ' user-agent ' : ' Mozilla/5.0 (windows nt 10.0; WOW64 ) appleWebKit/537.36(khtml,like Gecko ) chrome/58.0.3029.110 safari/537.36 ) }

defURL_1(page_o,page_t ) :

url_s=[]

forpageinrange(page_o,page_t ) :

URL=' http://www.80s.tw/movie/list//---p ' str (

url_s.append(url )

return url_s

efhtml(URL_s ) :

mv_urls=[]

for url in url_s:

HTML=requests.get(URL,headers=headers ) )。

soup=beautifulsoup(html.text,' lxml ' ) )。

formvinsoup.find_all(H3 )、({'class )、(H3 ) ) :

mv_URL=mv(a ) )0) ) ) href ) )。

mv _ URLs.append (' http://www.80s.tw ' mv _ URL ) )。

return mv_urls

defthlj(mv_urls ) :

num=0

print () 0:^1(t ) 1:^30 ) 2:^60 ) ).format )、(电影名称)、(迅达链接或磁性链接) )

for thurl in mv_urls:

HML=requests.get(thurl,headers=headers ) ) ) )。

soup_t=beautifulsoup(html.text,' lxml ' ) )。

forXLURLinsoup_t.find_all(span )、) {'class,) xunlei dlbutton1'} ) :

num=1

xl_lj=xlurl('a ' ) [0]['href']

xl_name=xlurl('a ' ) [0]['thunderrestitle']

print((0:^1) t ) 1:^30 ) t ) 2:^60 ).format (num,xl_name,xl_lj ) )

page _ o=int (输入('请输入要爬网的起始页:')

page _ t=int (输入('请输入需要爬网的退出页:')

thlj(html(URL_1) page_t,page_t ) )

这些迅雷链接可以直接复制并通过迅雷下载。 还有一个磁力链接。 我没用过,所以不知道怎么用。 大家在百度和谷歌下。

image.png

这些代码很简单,我也是初学者,只是记录着自己的成果。

技术共享也不多,敬请谅解。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。