linux编程,python豆瓣电影爬虫

教程将进入下一步：洛凉博客

大家可以登录www.80s.tw网站，观察页面菜单。

一开始我想爬菜单下的所有页面。我觉得还是有点复杂。

image.png

但是一开始是匹配的，我得到了这些菜单的链接。

用单线程写这些一定很复杂，所以放弃了。最后攻击了电影菜单下。

最初是用正则匹配迅雷(磁力)链接的，但匹配有点问题。

最后用BS4直接解决了。

看看代码吧。

导入请求

来自bs4导入基础软件

headers={ ' user-agent ' : ' Mozilla/5.0 (windows nt 10.0； WOW64 ) appleWebKit/537.36(khtml，like Gecko ) chrome/58.0.3029.110 safari/537.36 ) }

defURL_1(page_o，page_t ) :

url_s=[]

forpageinrange(page_o，page_t ) :

URL=' http://www.80s.tw/movie/list//---p ' str (

url_s.append(url )

return url_s

efhtml(URL_s ) :

mv_urls=[]

for url in url_s:

HTML=requests.get(URL，headers=headers ) )。

soup=beautifulsoup(html.text，' lxml ' ) )。

formvinsoup.find_all(H3 )、({'class )、(H3 ) ) :

mv_URL=mv(a ) )0) ) ) href ) )。

mv _ URLs.append (' http://www.80s.tw ' mv _ URL ) )。

return mv_urls

defthlj(mv_urls ) :

num=0

print () 0:^1(t ) 1:^30 ) 2:^60 ) ).format )、(电影名称)、(迅达链接或磁性链接) )

for thurl in mv_urls:

HML=requests.get(thurl，headers=headers ) ) ) )。

soup_t=beautifulsoup(html.text，' lxml ' ) )。

forXLURLinsoup_t.find_all(span )、) {'class，) xunlei dlbutton1'} ) :

num=1

xl_lj=xlurl('a ' ) [0]['href']

xl_name=xlurl('a ' ) [0]['thunderrestitle']

print((0:^1) t ) 1:^30 ) t ) 2:^60 ).format (num，xl_name，xl_lj ) )

page _ o=int (输入('请输入要爬网的起始页：')

page _ t=int (输入('请输入需要爬网的退出页：')

thlj(html(URL_1) page_t，page_t ) )

这些迅雷链接可以直接复制并通过迅雷下载。还有一个磁力链接。我没用过，所以不知道怎么用。大家在百度和谷歌下。

image.png

这些代码很简单，我也是初学者，只是记录着自己的成果。

技术共享也不多，敬请谅解。