编码以及python中的编码（python用的什么编码）

本文目录一览：

1、python编程（三级）1、编码、数制
2、python是什么编码格式
3、Python基本编码格式
4、python3.4 编码有哪些

python编程（三级）1、编码、数制

在计算机中使用的是二进制，（为什么呢，因为二进制计算简单，可以用电路表示等等很多优点）。但是二进制对阅读和使用是不友好的，因此需要将二进制转换为人类使用的语言，英语，中文等，这就是编码。

最初的编码就是ASCII编码，美国信息交换码。它使用一个字节，8位二进制，可以表示128个符号。常用的1-9,26个字母以及一些英语符号等。

ascii表是不能表示中文的，因此中文也有专门的编码，诸如GB2312，GBK等。其它国家也有类似编码，因此为了方便信息的交流，也就有了统一编码，Unicode，又叫万国码。unicode用0-65535来表示所有字符，Unicode用2-4个字节存储。不同的存储方式，又不同的编码，这就是UTF-8，UTF-16，UTF-32。utf-8根据字符数字的大小，来决定存储字节，存储英文字符时用1个字节，存储汉字时用2个字节。utf-16，两个字节，utf-32，四个字节。

python3 在内存中使用的是Unicode，万国码，默认的编码是utf-8。

chr() ，转换为对应Unicode表字符

ord()，转换为对于Unicode表数字

encode()，编码，将str转换为字节流

decode()，解码，将字节流转换为str

计算机存储数据的格式是二进制，日常和数学中使用的数字是十进制，为了表达简化，因此有了十六进制、八进制。

二进制----十进制----八进制---》十六进制

10000001 ---》129 ---》201---》81

从上式可以看出来，进制越大，表达更大数时更简化。

二进制转十进制，按权展开相加

十进制转二进制，除基取余

二进制转八进制，从右往左，取3位转换为十进制得到即为8进制，不足3位左边补0。

八进制转二进制，每位展开得到3个二进制位

二进制转十六进制，，从右往左，取4位转换为十进制得到即为16进制，不足3位左边补0。

十六进制转二进制，每位展开得到四个二进制位

int() ，

hex()，转换为16进制

bin()，转换为二进制

oct()，转换为八进制

python是什么编码格式

python编码总结：

1).首先python有两种格式的字符串，str和unicode，其中unicode相当于字节码那样，可以跨平台使用。

str转化为unicode可以通过unicode()，u，str.decode三种方式

unicode转化为str，如果有中文的话，一般通过encode的方式

2).如果代码中有中文的话，我们一般会添加 "# coding=utf-8"，这个是什么作用呢，一般如下：

如果代码中有中文注释，就需要此声明比较高级的编辑器（比如我的emacs），会根据头部声明，将此作为代码文件的格式。程序会通过

头部声明，解码初始化 u”人生苦短”，这样的unicode对象，（所以头部声明和代码的存储格式要一致

所以，当我们填上编码头的时候，使用s="中文"，实际上type(s)是一个str，是已经将unicode以utf-8格式编码成str。

其次，如果我们在代码中使用s=u'中文'，相当于将str以utf-8解码成unicode。

推荐学习《python教程》。

Python基本编码格式

1、一般来说，声明编码格式在脚本中是必需的。2、如果Python源码文件没有声明编码格式，Python解释器会默认使用ASCII编码。但出现非ASCII编码的字符，Python解释器就会报错。

1、Python 采用代码缩进和冒号（ : ）来区分代码块之间的层次。2、在 Python 中，对于类定义、函数定义、流程控制语句、异常处理语句等，行尾的冒号和下一行的缩进，表示下一个代码块的开始，而缩进的结束则表示此代码块的结束。3、Python 中实现对代码的缩进，可以使用空格或者 Tab 键实现。但无论是手动敲空格，还是使用 Tab 键，通常情况下都是采用 4 个空格长度作为一个缩进量（默认情况下，一个 Tab 键就表示 4 个空格）。4、对于 Python 缩进规则，初学者可以这样理解，Python 要求属于同一作用域中的各行代码，它们的缩进量必须一致，但具体缩进量为多少，并不做硬性规定。

正确示例代码:

错误示例代码:

Python中使用 # 进行注释，我们在使用# 的时候，# 号后面要空一格在行内注释的时候，中间应该至少加两个空格

print("你好，世界") # 注释

** 使用的一般性原则：**

1、在二元运算符两边各空一格，算术操作符两边的空格可灵活使用，但两侧务必要保持一致2、不要在逗号、分号、冒号前面加空格，但应该在它们后面加（除非在行尾）3、函数的参数列表中，逗号之后要有空格4、函数的参数列表中，默认值等号两边不要添加空格5、左括号之后，右括号之前不要加添加空格6、参数列表，索引或切片的左括号前不应加空格

使用的一般性原则：

1、编码格式声明、模块导入、常量和全局变量声明、顶级定义和执行代码之间空两行2、顶级定义之间空两行，方法定义之间空一行3、在函数或方法内部，可以在必要的地方空一行以增强节奏感，但应避免连续空行

1、导入总应该放在文件顶部，位于模块注释和文档字符串之后，模块全局变量和常量之前。

2、导入应该按照从最通用到最不通用的顺序分组，分组之间空一行：

3、每个 import 语句只导入一个模块，尽量避免一次导入多个模块

命名规范这一块的大家应该都比较熟悉了，但是不同的编程语言之间的明明规范也是有所区别的~

Python命名建议遵循的一般性原则：

引号使用的一般性原则：

Python跟其他几个主流编程语言的分号使用区别很大Python的代码末尾不需要加分号，而Java和C#等都需要添加

不要在行尾添加分号，也不要用分号将两条命令放在同一行，例如：

Python学习日记

python3.4 编码有哪些

Python3中的编码问题前，第一个段落对字节、ASCII与Unicode与UTF-8等进行基本介绍，如果不对这几种编码犯头晕，可直接跳过。

ASCII与Unicode与UTF-8与GBK

首先从老大哥说起。跟很多人一样，大学读了这么久，久仰ASCII编码的大名。要说这个老大哥，我们再先从字节说起。一个字节包括八个比特位，每个比特位表示0或1，一个字节即可表示从00000000到11111111共2^8=256个数字。一个ASCII编码使用一个字节（除去字节的最高位作为作奇偶校验位），ASCII编码实际使用一个字节中的7个比特位来表示字符，共可表示2^7=128个字符。比如那时写C语言的程序，就经常要背下ASCII编码中的01000001（即十进制的65）表示字符‘A’，01000001加上32之后的01100001（即十进制的97）表示字符‘a’。现在打开Python，调用chr和ord函数，我们可以看到Python为我们对ASCII编码进行了转换。

第一个00000000表示空字符，因此ASCII编码实际上只包括了

字母、标点符号、特殊符号等共127个字符。因为ASCII是在美国出生的，对于由字母组成单词进而用单词表达的英文来说也是够了。但是中国人、日本人、

韩国人等其他语言的人不服了。中文是一个字一个字，ASCII编码用上了浑身解数256个字符都不够用。

因此后来出现了Unicode编码。Unicode编码通常由两个字节组成，共表示256*256个字符，即所谓的UCS-2。某些偏僻字还会用到四个字节，即所谓的UCS-4。也就是说Unicode标准也还在发展。但UCS-4出现的比较少，我们先记住：最原始的ASCII编码使用一个字节编码，但由于语言差异字符众多，人们用上了两个字节，出现了统一的、囊括多国语言的Unicode编码。

在Unicode中，原本ASCII中的127个字符只需在前面补一个全零的字节即可，比如前文谈到的字符‘a’：01100001，在Unicode中变成了00000000 01100001。不久，美国人不开心了，吃上了世界民族之林的大锅饭，原本只需一个字节就能传输的英文现在变成两个字节，非常浪费存储空间和传输速度。

人们再发挥聪明才智，于是出现了UTF-8编码。因为针对的是空间浪费问题，因此这种UTF-8编码是可变长短的，从英文字母的一个字节，到中文的通常的三个字节，再到某些生僻字的六个字节。解决了空间问题，UTF-8编码还有一个神奇的附加功能，那就是兼容了老大哥的ASCII编码。一些老古董软件现在在UTF-8编码中可以继续工作。

注意除了英文字母相同，汉字在Unicode编码和UTF-8编码中通常是不同的。比如汉字的‘中’字在Unicode中是01001110

00101101，而在UTF-8编码中是11100100 10111000

10101101。

我们祖国母亲自然也有自己的一套标准。那就是GB2312和GBK。当然现在挺少看到。通常都是直接使用UTF-8。记得我唯一一次看到GB编码的网页，是一个成人网站。

Python3中的默认编码

Python3中默认是UTF-8，我们通过以下代码：

import sys

sys.getdefaultencoding()

可查看Python3的默认编码。

Python3中的encode和decode

Python3中字符编码经常会使用到decode和encode函数。特别是在抓取网页中，这两个函数用的熟练非常有好处。我的理解，encode的作用，使我们看到的直观的字符转换成计算机内的字节形式。decode刚好相反，把字节形式的字符转换成我们看的懂的、直观的、“人模人样”的形式。如下图。

x表示后面是十六进制，xe4xb8xad即是二进制的11100100 10111000

10101101。也就是说汉字‘中’encode成字节形式，是11100100 10111000

10101101。同理，我们拿11100100

10111000 10101101也就是xe4xb8xad来decode回来，就是汉字‘中’。完整的应该是b'xe4xb8xad'，在Python3中，以字节形式表示的字符串则必须加上前缀b，也就是写成上文的b'xxxx'形式。

前文说的Python3的默认编码是UTF-8，所以我们可以看到，Python处理这些字符的时候是以UTF-8来处理的。因此从上图可以看到，就算我们通过encode('utf-8')特意把字符encode为UTF-8编码，出来的结果还是相同：b'xe4xb8xad'。

明白了这一点，同时我们知道UTF-8兼容ASCII，我们可以猜想大学时经常背诵的‘A’对应ASCII中的65，在这里是不是也能正确的decode出来呢。十进制的65转换成十六进制是41，我们尝试下：

b'x41'.decode()

结果如下。果然是字符‘A’

Python3中的编码转换

据说字符在计算机的内存中统一是以Unicode编码的。只有在字符要被写进文件、存进硬盘或者从服务器发送至客户端（例如网页前端的代码）时会变成utf-8。但其实我比较关心怎么把这些字符以Unicode的字节形式表现出来，露出它在内存中的庐山正面目的。这里有个照妖镜：

xxxx.encode/decode('unicode-escape')

输出如下

b'\u4e2d'还是b'u4e2d，一个斜杠貌似没影响。同时可以发现在shell窗口中，直接输'u4e2d'和输入b'u4e2d'.decode('unicode-escape')是相同的，都会打印出汉字‘中’，反而是'u4e2d'.decode('unicode-escape')会报错。说明说明Python3不仅支持Unicode，而且一个‘uxxxx’格式的Unicode字符可被辨识且被等价于str类型。

如果我们知道一个Unicode字节码，怎么变成UTF-8的字节码呢。懂了以上这些，现在我们就有思路了，先decode，再encode。代码如下：

xxx.decode('unicode-escape').encode()

测试如下：

可以看到最后输出的UTF-8字节与上面的相同。尝试成功。所以其他的编码之间的转换，大概也是如此。

最后的扩展

还记得刚刚那个ord吗。时代变迁，老大哥ASCII被人合并，但ord还是有用武之地。试试ord('中')，输出结果是20013。20013是什么呢，我们再试试hex(ord('中'))，输出结果是'0x4e2d'，也就是20013是我们在上文见面了无数次的x4e2d的十进制值。这里说下hex，是用来转换成十六进制的函数，学过单片机的人对hex肯定不会陌生。

最后的扩展，在网上看到的他人的问题。我们写下类似于'u4e2d'的字符，Python3知道我们想表达什么。但是让Python读取某个文件的时候出现了'u4e2d'，是不是计算机就不认识它了呢？后来下文有人给出了答案。如下：

import codecs

file = codecs.open( "a.txt", "r", "unicode-escape" )

u = file.read()

print(u)