首页 > 编程知识 正文

python 电影,Python视频

时间:2023-05-04 07:51:45 阅读:278038 作者:4508

这段时间一直在学习Python爬虫,为了加强学习过程,也为了以后的学习留下点痕迹,特此记录下整篇爬虫的过程。以电影天堂为例,提取出当前界面的最新电影。

# -*- coding:utf-8 -*-

import urllib2

import os

import re

url = 'http://www.dy2018.com/html/gndy/dyzz/index.html' #这是电影天堂最新电影的网站

conent = urllib2.urlopen(url)

conent = conent.read()

conent = conent.decode('gb2312','ignore').encode('utf-8','ignore') #为了避免中文乱码

f = open('conent.txt','w')

f.write(conent)

f.close()

得到的context.txt文件为

电影天堂,浏览器打开后的F12界面,形如下图。(该文件共有1126行)

初步过滤,过滤出来586行:

pattern = re.compile ('

.*?> (.*?)

items = re.findall(pattern,conent)#先把含有最新电影的网页代码选出来,再进行下一次筛选

str = ''.join(items)

f = open('str.txt','w')

f.write(str)

f.close()

进一步过滤提取:

pattern = re.compile ('(.*?)',re.S)

news = re.findall(pattern, str)

f = open('movie.txt','w')

for j in news:

f.write(j[1]+'n')

f.close()

OK,大功告成!

全部代码如下:

# -*- coding:utf-8 -*-

import urllib2

import os

import re

url = 'http://www.dy2018.com/html/gndy/dyzz/index.html' #这是电影天堂最新电影的网站

conent = urllib2.urlopen(url)

conent = conent.read()

conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')

#这个‘ignore’差点就忘了,主要是对一些可以忽略的参数进行编码忽略,下午一直没想起来总是出错

'''

f = open('conent.txt','w')

f.write(conent)

f.close()

'''

pattern = re.compile ('

.*?> (.*?)

items = re.findall(pattern,conent)#先把含有最新电影的网页代码选出来,再进行下一次筛选

str = ''.join(items)

'''

f = open('str.txt','w')

f.write(str)

f.close()

'''

pattern = re.compile ('(.*?)',re.S)

news = re.findall(pattern, str)

f = open('movie.txt','w')

for j in news:

f.write(j[1]+'n')

f.close()

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。