教程将进入下一步:洛凉博客
大家可以登录www.80s.tw网站,观察页面菜单。
一开始我想爬菜单下的所有页面。 我觉得还是有点复杂。
image.png
但是一开始是匹配的,我得到了这些菜单的链接。
用单线程写这些一定很复杂,所以放弃了。 最后攻击了电影菜单下。
最初是用正则匹配迅雷(磁力)链接的,但匹配有点问题。
最后用BS4直接解决了。
看看代码吧。
导入请求
来自bs4导入基础软件
headers={ ' user-agent ' : ' Mozilla/5.0 (windows nt 10.0; WOW64 ) appleWebKit/537.36(khtml,like Gecko ) chrome/58.0.3029.110 safari/537.36 ) }
defURL_1(page_o,page_t ) :
url_s=[]
forpageinrange(page_o,page_t ) :
URL=' http://www.80s.tw/movie/list//---p ' str (
url_s.append(url )
return url_s
efhtml(URL_s ) :
mv_urls=[]
for url in url_s:
HTML=requests.get(URL,headers=headers ) )。
soup=beautifulsoup(html.text,' lxml ' ) )。
formvinsoup.find_all(H3 )、({'class )、(H3 ) ) :
mv_URL=mv(a ) )0) ) ) href ) )。
mv _ URLs.append (' http://www.80s.tw ' mv _ URL ) )。
return mv_urls
defthlj(mv_urls ) :
num=0
print () 0:^1(t ) 1:^30 ) 2:^60 ) ).format )、(电影名称)、(迅达链接或磁性链接) )
for thurl in mv_urls:
HML=requests.get(thurl,headers=headers ) ) ) )。
soup_t=beautifulsoup(html.text,' lxml ' ) )。
forXLURLinsoup_t.find_all(span )、) {'class,) xunlei dlbutton1'} ) :
num=1
xl_lj=xlurl('a ' ) [0]['href']
xl_name=xlurl('a ' ) [0]['thunderrestitle']
print((0:^1) t ) 1:^30 ) t ) 2:^60 ).format (num,xl_name,xl_lj ) )
page _ o=int (输入('请输入要爬网的起始页:')
page _ t=int (输入('请输入需要爬网的退出页:')
thlj(html(URL_1) page_t,page_t ) )
这些迅雷链接可以直接复制并通过迅雷下载。 还有一个磁力链接。 我没用过,所以不知道怎么用。 大家在百度和谷歌下。
image.png
这些代码很简单,我也是初学者,只是记录着自己的成果。
技术共享也不多,敬请谅解。