首页 > 编程知识 正文

python爬虫笔记安装篇(python爬虫模块安装)

时间:2023-12-20 16:55:04 阅读:318424 作者:OGHO

本文目录一览:

「python爬虫保姆级教学」urllib的使用以及页面解析

使用urllib来获取百度首页的源码

get请求参数,如果是中文,需要对中文进行编码,如下面这样,如果不编码会报错。

urlencode应用场景:多个参数的时候。如下

为什么要学习handler?

为什么需要代理?因为有的网站是禁止爬虫的,如果用真实的ip去爬虫,容易被封掉。

2.解析技术

1.安装lxml库

2.导入lxml.etree

3.etree.parse() 解析本地文件

4.etree.HTML() 服务器响应文件

5.解析获取DOM元素

1.路径查询

2.谓词查询

3.属性查询

4.模糊查询

5.内容查询

6.逻辑运算

示例:

JsonPath只能解析本地文件。

pip安装:

jsonpath的使用:

示例:

解析上面的json数据

缺点:效率没有lxml的效率高

优点:接口设计人性化,使用方便

pip install bs4 -i

from bs4 import BeautifulSoup

1.根据标签名查找节点

soup.a.attrs

2.函数

find(‘a’):只找到第一个a标签

find(‘a’, title=‘名字’)

find(‘a’, class_=‘名字’)

find_all(‘a’) :查找到所有的a

find_all([‘a’, ‘span’]) 返回所有的a和span

find_all(‘a’, limit=2) 只找前两个a

obj.string

obj.get_text()【推荐】

tag.name:获取标签名

tag.attrs:将属性值作为一个字典返回

obj.attrs.get(‘title’)【常用】

obj.get(‘title’)

obj[‘title’]

示例:

使用BeautifulSoup解析上面的html

python如何安装网络爬虫?

你的模块没有安装

你在win系统下用pip工具安装第三方模块

pip install 模块名

然后再执行你上面的代码就可以了

python 爬虫

验证码(CAPTCHA)全称为全自动区分计算机和人类的公开图灵测试(Completely Automated Public Turing test to tell Computersand Humans Apart)。从其全称可以看出,验证码用于测试用户是真实的人类还是计算机机器人。

1.获得验证码图片

每次加载注册网页都会显示不同的验证验图像,为了了解表单需要哪些参数,我们可以复用上一章编写的parse_form()函数。

import cookielib,urllib2,pprint import form REGISTER_URL = '' cj=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) html=opener.open(REGISTER_URL).read() form=form.parse_form(html) pprint.pprint(form)

{'_formkey': 'a67cbc84-f291-4ecd-9c2c-93937faca2e2', '_formname': 'register', '_next': '/places/default/index', 'email': '', 'first_name': '', 'last_name': '', 'password': '', 'password_two': '', 'recaptcha_response_field': None} 123456789101112131415161718

上面recaptcha_response_field是存储验证码的值,其值可以用Pillow从验证码图像获取出来。先安装pip install Pillow,其它安装Pillow的方法可以参考 。Pillow提价了一个便捷的Image类,其中包含了很多用于处理验证码图像的高级方法。下面的函数使用注册页的HTML作为输入参数,返回包含验证码图像的Image对象。

import lxml.html from io import BytesIO from PIL import Image tree=lxml.html.fromstring(html) print tree

Element html at 0x7f8b006ba890 img_data_all=tree.cssselect('div#recaptcha img')[0].get('src') print img_data_all

data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAQAAAABgCAIAAAB9kzvfAACAtklEQVR4nO29Z5gcZ5ku3F2dc865

...

rkJggg== img_data=img_data_all.partition(',')[2] print img_data

iVBORw0KGgoAAAANSUhEUgAAAQAAAABgCAIAAAB9kzvfAACAtklEQVR4nO29Z5gcZ5ku3F2dc865

...

rkJggg== binary_img_data=img_data.decode('base64') file_like=BytesIO(binary_img_data) print file_like

_io.BytesIO object at 0x7f8aff6736b0 img=Image.open(file_like) print img

PIL.PngImagePlugin.PngImageFile image mode=RGB size=256x96 at 0x7F8AFF5FAC90 12345678910111213141516171819202122232425

在本例中,这是一张进行了Base64编码的PNG图像,这种格式会使用ASCII编码表示二进制数据。我们可以通过在第一个逗号处分割的方法移除该前缀。然后,使用Base64解码图像数据,回到最初的二进制格式。要想加载图像,PIL需要一个类似文件的接口,所以在传给Image类之前,我们以使用了BytesIO对这个二进制数据进行了封装。

完整代码:

# -*- coding: utf-8 -*-form.pyimport urllibimport urllib2import cookielibfrom io import BytesIOimport lxml.htmlfrom PIL import Image

REGISTER_URL = ''#REGISTER_URL = ''def extract_image(html):

tree = lxml.html.fromstring(html)

img_data = tree.cssselect('div#recaptcha img')[0].get('src') # remove data:image/png;base64, header

img_data = img_data.partition(',')[-1] #open('test_.png', 'wb').write(data.decode('base64'))

binary_img_data = img_data.decode('base64')

file_like = BytesIO(binary_img_data)

img = Image.open(file_like) #img.save('test.png')

return imgdef parse_form(html):

"""extract all input properties from the form

"""

tree = lxml.html.fromstring(html)

data = {} for e in tree.cssselect('form input'): if e.get('name'):

data[e.get('name')] = e.get('value') return datadef register(first_name, last_name, email, password, captcha_fn):

cj = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

html = opener.open(REGISTER_URL).read()

form = parse_form(html)

form['first_name'] = first_name

form['last_name'] = last_name

form['email'] = email

form['password'] = form['password_two'] = password

img = extract_image(html)#

captcha = captcha_fn(img)#

form['recaptcha_response_field'] = captcha

encoded_data = urllib.urlencode(form)

request = urllib2.Request(REGISTER_URL, encoded_data)

response = opener.open(request)

success = '/user/register' not in response.geturl() #success = '/places/default/user/register' not in response.geturl()

return success12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152

2.光学字符识别验证码

光学字符识别(Optical Character Recognition, OCR)用于图像中抽取文本。本节中,我们将使用开源的Tesseract OCR引擎,该引擎最初由惠普公司开发的,目前由Google主导。Tesseract的安装说明可以从 获取。然后可以使用pip安装其Python封装版本pytesseractpip install pytesseract。

下面我们用光学字符识别图像验证码:

import pytesseract import form img=form.extract_image(html) pytesseract.image_to_string(img)'' 123456

如果直接把验证码原始图像传给pytesseract,一般不能解析出来。这是因为Tesseract是抽取更加典型的文本,比如背景统一的书页。下面我们进行去除背景噪音,只保留文本部分。验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查是否为黑色将文本分离出来,该处理过程又被称为阈值化。

img.save('2captcha_1original.png') gray=img.convert('L') gray.save('2captcha_2gray.png') bw=gray.point(lambda x:0 if x1 else 255,'1') bw.save('2captcha_3thresholded.png') 1234567

这里只有阈值小于1的像素(全黑)都会保留下来,分别得到三张图像:原始验证码图像、转换后的灰度图和阈值化处理后的黑白图像。最后我们将阈值化处理后黑白图像再进行Tesseract处理,验证码中的文字已经被成功抽取出来了。

pytesseract.image_to_string(bw)'language' import Image,pytesseract img=Image.open('2captcha_3thresholded.png') pytesseract.image_to_string(img)'language' 123456789

我们通过示例样本测试,100张验证码能正确识别出90张。

import ocr ocr.test_samples()

Accuracy: 90/100 1234

下面是注册账号完整代码:

# -*- coding: utf-8 -*-import csvimport stringfrom PIL import Imageimport pytesseractfrom form import registerdef main():

print register('Wu1', 'Being1', 'Wu_Being001@qq.com', 'example', ocr)def ocr(img):

# threshold the image to ignore background and keep text

gray = img.convert('L') #gray.save('captcha_greyscale.png')

bw = gray.point(lambda x: 0 if x 1 else 255, '1') #bw.save('captcha_threshold.png')

word = pytesseract.image_to_string(bw)

ascii_word = ''.join(c for c in word if c in string.letters).lower() return ascii_wordif __name__ == '__main__':

main()1234567891011121314151617181920212223

我们可以进一步改善OCR性能:

- 实验不同阈值

- 腐蚀阈值文本,突出字符形状

- 调整图像大小

- 根据验证码字体训练ORC工具

- 限制结果为字典单词

如何python安装及配置扩展包爬虫爬取

一.安装Python及基础知识

一.安装Python

在开始使用Python编程之前,需要介绍Python的安装过程。python解释器在Linux中可以内置使用安装,windows中需要去官网downloads页面下载。具体步骤如下:

第一步:打开Web浏览器并访问官网;

第二步:在官网首页点击Download链接,进入下载界面,选择Python软件的版本,作者选择下载python 2.7.8,点击“Download”链接。

Python下载地址:

第三步:选择文件下载地址,并下载文件。

第四步:双击下载的“python-2.7.8.msi”软件,并对软件进行安装。

第五步:在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:Python27”,点击“Next”按钮,如图所示。

注意1:建议将Python安装在C盘下,通常路径为C:Python27,不要存在中文路径。

在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:Python27”,点击“Next”按钮。

安装成功后,如下图所示:

python爬虫怎么做?

具体步骤

整体思路流程

简单代码演示

准备工作

下载并安装所需要的python库,包括:

对所需要的网页进行请求并解析返回的数据

对于想要做一个简单的爬虫而言,这一步其实很简单,主要是通过requests库来进行请求,然后对返回的数据进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。

可以通过定义不同的爬虫来实现爬取不同页面的信息,并通过程序的控制来实现一个自动化爬虫。

以下是一个爬虫的实例

python爬虫需要安装哪些库

一、 请求库

1. requests

requests 类库是第三方库,比 Python 自带的 urllib 类库使用方便和

2. selenium

利用它执行浏览器动作,模拟操作。

3. chromedriver

安装chromedriver来驱动chrome。

4. aiohttp

aiohttp是异步请求库,抓取数据时可以提升效率。

二、 解析库

1. lxml

lxml是Python的一个解析库,支持解析HTML和XML,支持XPath的解析方式,而且解析效率非常高。

2. beautifulsoup4

Beautiful Soup可以使用它更方便的从 HTML 文档中提取数据。

3. pyquery

pyquery是一个网页解析库,采用类似jquery的语法来解析HTML文档。

三、 存储库

1. mysql

2. mongodb

3. redis

四、 爬虫框架scrapy

Scrapy 是一套异步处理框架,纯python实现的爬虫框架,用来抓取网页内容以及各种图片

需要先安装scrapy基本依赖库,比如lxml、pyOpenSSL、Twisted

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。