首页 > 编程知识 正文

python爬取乱码,python读取中文乱码

时间:2023-12-27 22:26:29 阅读:324378 作者:ZVCU

本文目录一览:

为什么python爬取的中文乱码

编码错了呗,python的bytes,默认的decode参数utf-8,如果网页不是utf-8的,你就得手动指定编码,国内很多网页是gbk、gb2312的

python爬虫爬到的中文乱码怎么办

爬到的内容,肯定是某种编码格式(utf-8/gb2312等)的字符串。只需要对它相应的decode一下就可以了。

比如:如果网页内容是utf-8编码的,就:'xxx'.decode('utf-8');

如果是gb2312编码的,就:'xxx'.decode('gb2312')

python爬虫抓取到的数据用网页打开时是乱码,怎么解决

写爬虫是经常会遇到这样的问题,这种问题很显然是编码问题,解决的方法其实也不难。

你可以用下面的两个方法来解决你的编码问题:

第一种是,通过浏览器打开你写的html之后,找到浏览器中的文字编码修改,将编码改为Unicode编码,即可修复。

第二种方法是修改你的前端代码:在你的代码output_html方法中,规定网页的文字编码即可

Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题

1.1 简单的开始

使用requests来拔取网站内容十分方便,一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url = 'http // www . pythonscraping . com/'

req = requests.get(url)

print(req.text)

tree = html.fromstring(req.text)

print(tree.xpath("//h1[@class='title']/text()"))

上面的代码段起作用的也就3行(2,4,5)代码就获取到我们想要的内容。当然还要导入一系列的包,比如说requests、lxml、html等。当然由于http//是英文网站,不存在中文乱码问题。

1.2 麻烦的开始

本来当时的想法是写一些基础模块,方便之后开发的时候调用,减少重复性工作。为了保证代码在任何情况下都不会出现bug,所以想着用同样的代码爬取中文网站获取里面的文字

修改上面代码中的两行代码:

点击(此处)折叠或打开

url = 'http : // sports . sina . com . cn/g/premierleague/index.shtml'

print(tree.xpath("//span[@class='sec_blk_title']/text()"))

运行程序可以发现,在语句print(req.text)输出的内容中,中文字体已经是乱码了。最后的结果输出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 乱码解决办法

2.1 试错

由于之前爬取csdn上一个网页没有出现乱码问题,但是在sina体育网站上出现了乱码,所以当时以为不是编码问题,以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性,但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。

2.2 乱码终极解决办法

后来查阅官方文档中response-content相关内容,说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测,前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了,如果你创建了自己的编码,并使用codecs 模块进行注册,你就可以轻松地使用这个解码器名称作为 r.encoding 的值, 然后由Requests来为你处理编码。(自己没有使用codecs模块,所以这里不贴代码了,不过按官方的说法使用codecs模块是最简单的一种方式。)

另一份官方文档片段明确说了reponse编码处理方式:

Requests遵循RFC标准,编码使用ISO-8859-1 。

只有当HTTP头部不存在明确指定的字符集,并且 Content-Type 头部字段包含 text 值之时, Requests才不去猜测编码方式。

现在直接上实验结果,在原始代码中添加以下代码片段:

点击(此处)折叠或打开

print(req.headers['content-type'])

print(req.encoding)

print(req.apparent_encoding)

print(requests.utils.get_encodings_from_content(page_content.text))

输出结果分别是:

text/html

ISO-8859-1#response内容的编码

utf-8#response headers里设置的编码

['utf-8']#response返回的html header标签里设置的编码

返回的内容是采用‘ISO-8859-1’,所以出现了乱码,而实际上我们应该采用‘utf-8’编码

总结:当response编码是‘ISO-8859-1’,我们应该首先查找response header设置的编码;如果此编码不存在,查看返回的Html的header设置的编码,代码如下:

点击(此处)折叠或打开

if req.encoding == 'ISO-8859-1':

encodings = requests.utils.get_encodings_from_content(req.text)

if encodings:

encoding = encodings[0]

else:

encoding = req.apparent_encoding

encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')

python爬虫抓下来的网页,中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子

同时,对于网页的中文乱码,建立使用requests模块代替urlliburllib2

requests的content方法,对中文编码,支持比较好,基本不会出现乱码。

req=requests.get(url,cookies=mecookies)

print req.content

具体用法,参见下面两个帖子,较详细:

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。