本文目录一览:
- 1、python中如何获取中文的utf8编码
- 2、python怎么设置 默认编码为utf8
- 3、怎么在Python里使用UTF-8编码
- 4、如何设置python的编码格式为utf-8
- 5、python读取文件解决‘utf8’ codec can’t decode byte 0xa1的问题
python中如何获取中文的utf8编码
首先要表示一个汉字,至少需要2个字节码
如果需要以utf解码你的汉字,可以用如下办法
unicode('人','utf-16')
u'ucbc8'
如果需要以gbk解码你的汉字,可以用如下办法
unicode('人','gbk')
u'u4eba
python怎么设置 默认编码为utf8
python的编码格式?
#coding=utf-8
这是文档编码
import sys
sys.setdefaultencoding("utf-8")
这是设置默认编码方式为utf-8
xx.encode("utf-8")
这是字符串编码操作
import codecs
codecs.open(xx,'r','utf-8"),这是文件编码读取方式
怎么在Python里使用UTF-8编码
在文件的顶部添加:
# -*- coding: utf-8 -*-
或者
str.encode("utf-8")
如果解决了您的问题请采纳!
如果未解决请继续追问
如何设置python的编码格式为utf-8
python的编码格式?
#coding=utf-8
这是文档编码
import sys
sys.setdefaultencoding("utf-8")
这是设置默认编码方式为utf-8
xx.encode("utf-8")
这是字符串编码操作
import codecs
codecs.open(xx,'r','utf-8"),这是文件编码读取方式
python读取文件解决‘utf8’ codec can’t decode byte 0xa1的问题
一般这种文件存在类似字符:
如果UTF-8搞不定,可以采取ISO-8859-1编码方式解决:
最早的编码是iso8859-1,和ascii编码相似。但为了方便表示各种各样的语言,逐渐出现了很多标准编码,重要的有如下几个。
很明显,iso8859-1编码表示的字符范围很窄,无法表示中文字符。但是,由于是单字节编码,和计算机最基础的表示单位一致,所以很多时候,仍旧使用iso8859-1编码来表示。而且在很多协议上,默认使用该编码。比如,虽然"中文"两个字不存在iso8859-1编码,以gb2312编码为例,应该是"d6d0 cec4"两个字符,使用iso8859-1编码的时候则将它拆开为4个字节来表示:"d6 d0 ce c4"(事实上,在进行存储的时候,也是以字节为单位处理的)。而如果是UTF编码,则是6个字节"e4 b8 ad e6 96 87"。很明显,这种表示方法还需要以另一种编码为基础。
需要说明的是,定长编码便于计算机处理(注意GB2312/GBK不是定长编码),而unicode又可以用来表示所有字符,所以在很多软件内部是使用unicode编码来处理的,比如java。
注意,虽然说utf是为了使用更少的空间而使用的,但那只是相对于unicode编码来说,如果已经知道是汉字,则使用GB2312/GBK无疑是最节省的。不过另一方面,值得说明的是,虽然utf编码对汉字使用3个字节,但即使对于汉字网页,utf编码也会比unicode编码节省,因为网页中包含了很多的英文字符。