关于python获取的数据编码格式的信息

本文目录一览：

1、python有哪几种编码方式
2、python str与bytes编码解码
3、python数据类型有哪些
4、Python基本编码格式
5、python123汉字的unicode编码值

python有哪几种编码方式

第一种：ASCII码。是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，它是现今最通用的单字节编码系统，并等同于国际标准IS/IEC

646。

由于计算机是美国人发明的，因此，最早只有127个字母被编码到计算机李，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母a的编码是97，后128个称为扩展ASCII码。

第二种：GBK和GB2312。能在计算机中显示中文字符是至关重要的，然而ASCII表里一个偏旁部首都没有，所以我们需要一个关于中文和数字对应的关系表，一个字节只能最多表示256个字符，用处理中文显然一个字节是不够的，所以我们需要采用两个字节来表示，所以中国制定了GB2312编码，用来将中文编写进去。

第三种：Unicode。因为各个国家都有一套自己的编码，所以无法避免冲突，因此Unicode诞生了。它可以把所有语言都统一到一套编码里，这样就不会存在乱码问题了，现代操作系统和大多数编程语言都直接支持Unicode。

第四种：UFT-8。基于节约的原则，出现了把Unicode编码转化为可变长编码的UTF-8编码。而UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成一个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节，如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

python str与bytes编码解码

下面一张图搞懂编码、解码、编码表之间的关系。

不难看出，它们是一种根据编码表进行翻译、映射的过程：

实际上，字符串类型只有encode()方法，没有decode()方法，而bytes类型只有decode()方法而没有encode()方法。

二进制格式的数据也常称为裸数据(raw data)，所以str数据经过编码后得到raw data，raw data解码后得到的str。

上面说了，编码是将字符数据转换成字节数据(raw data)，解码是将字节数据转换成字符数据。在Python中字符数据也就是字符串，即str类型，字节数据也就是bytes类型或bytearray类型。

编码时，可以使用字节类型的构造方法bytes()、bytearray()来构造字节，也可以使用str类型的encode()方法来转换。

解码时，可以使用str类型的构造方法str()来构造字符串，也可以使用bytes、bytearray()类型的decode()方法。

另外需要注意的是，编码和解码的过程中都需要指定编码表(字符集)，默认采用的是utf-8字符集。

例如，使用encode()的方式将str编码为bytes数据。

使用bytes()和bytearray()将str构造成bytes或bytearray数据，这两个方法都要求str-byte的过程中给定编码。

实际上，bytes()、bytearray()这两个方法构造字节数据的时候还有点复杂，因为可以从多个数据源来构造，比如字符串、整数值、buffer。如何使用这两个方法构造字节数据，详细内容参考help(bytes)和help(bytearray)给出的说明，这里给几个简单示例。

构造bytes的方式：

构造bytearray的方式：

解码是字节序列到str类型的转换。

例如，使用decode()方法进行解码"我"字，它的utf-8的编码对应为"xe6x88x91"：

使用str()进行转换。

当编码、解码的过程使用了不同的(不兼容的)编码表时，就会出现乱码。所以，解决乱码的唯一方式是指定对应的编码表进行编码、解码。

例如，使用utf-8编码"我"字，得到一个bytes序列，然后使用gbk解码这个bytes序列。

这里报错了，因为utf-8的字节序列里有gbk无法解码的字节。如果使用文本编辑器一样的工具去显化这个过程，得到的将是乱码字符。

原文地址：

python数据类型有哪些

数据类型是每种编程语言必备的属性，只有给数据赋予明确的数据类型，计算机才能对数据进行处理运算，因此，使用正确的数据类型是十分有必要的，以下是Python编程常用的数据类型：

一、数字型

Python数字类型主要包括int(整型)、long(长整型)和float(浮点型)，但是在Python3中就不再有long类型了。

1、int(整型)

在32位机器上，整数的位数是32位，取值范围是-231~231-1，即-2147483648~214748364;在64位系统上，整数的位数为64位，取值范围为-263~263-1，即9223372036854775808~9223372036854775807。

2、long(长整型)

Python长整型没有指定位宽，但是由于机器内存有限，使用长的长整数数值也不可能无限大。

3、float(浮点型)

浮点型也就是带有小数点的数，其精度和机器有关。

4、complex(复数)

Python还支持复数，复数由实数部分和虚数部分构成，可以用 a + bj,或者 complex(a,b) 表示，复数的实部 a 和虚部 b

都是浮点型。

二、字符串

在Python中，加了引号的字符都被认为是字符串，其声明有三种方式，分别是：单引号、双引号和三引号;Python中的字符串有两种数据类型，分别是str类型和unicode类型，str类型采用的ASCII编码，无法表示中文，unicode类型采用unicode编码，能够表示任意字符，包括中文和其他语言。

三、布尔型

和其他编程语言一样，Python布尔类型也是用于逻辑运算，有两个值：True(真)和False(假)。

四、列表

列表是Python中使用最频繁的数据类型，集合中可以放任何数据类型，可对集合进行创建、查找、切片、增加、修改、删除、循环和排序操作。

五、元组

元组和列表一样，也是一种序列，与列表不同的是，元组是不可修改的，元组用”()”标识，内部元素用逗号隔开。

六、字典

字典是一种键值对的集合，是除列表以外Python之中最灵活的内置数据结构类型，列表是有序的对象集合，字典是无序的对象集合。

七、集合

集合是一个无序的、不重复的数据组合，它的主要作用有两个，分别是去重和关系测试。

Python基本编码格式

1、一般来说，声明编码格式在脚本中是必需的。2、如果Python源码文件没有声明编码格式，Python解释器会默认使用ASCII编码。但出现非ASCII编码的字符，Python解释器就会报错。

1、Python 采用代码缩进和冒号（ : ）来区分代码块之间的层次。2、在 Python 中，对于类定义、函数定义、流程控制语句、异常处理语句等，行尾的冒号和下一行的缩进，表示下一个代码块的开始，而缩进的结束则表示此代码块的结束。3、Python 中实现对代码的缩进，可以使用空格或者 Tab 键实现。但无论是手动敲空格，还是使用 Tab 键，通常情况下都是采用 4 个空格长度作为一个缩进量（默认情况下，一个 Tab 键就表示 4 个空格）。4、对于 Python 缩进规则，初学者可以这样理解，Python 要求属于同一作用域中的各行代码，它们的缩进量必须一致，但具体缩进量为多少，并不做硬性规定。

正确示例代码:

错误示例代码:

Python中使用 # 进行注释，我们在使用# 的时候，# 号后面要空一格在行内注释的时候，中间应该至少加两个空格

print("你好，世界") # 注释

** 使用的一般性原则：**

1、在二元运算符两边各空一格，算术操作符两边的空格可灵活使用，但两侧务必要保持一致2、不要在逗号、分号、冒号前面加空格，但应该在它们后面加（除非在行尾）3、函数的参数列表中，逗号之后要有空格4、函数的参数列表中，默认值等号两边不要添加空格5、左括号之后，右括号之前不要加添加空格6、参数列表，索引或切片的左括号前不应加空格

使用的一般性原则：

1、编码格式声明、模块导入、常量和全局变量声明、顶级定义和执行代码之间空两行2、顶级定义之间空两行，方法定义之间空一行3、在函数或方法内部，可以在必要的地方空一行以增强节奏感，但应避免连续空行

1、导入总应该放在文件顶部，位于模块注释和文档字符串之后，模块全局变量和常量之前。

2、导入应该按照从最通用到最不通用的顺序分组，分组之间空一行：

3、每个 import 语句只导入一个模块，尽量避免一次导入多个模块

命名规范这一块的大家应该都比较熟悉了，但是不同的编程语言之间的明明规范也是有所区别的~

Python命名建议遵循的一般性原则：

引号使用的一般性原则：

Python跟其他几个主流编程语言的分号使用区别很大Python的代码末尾不需要加分号，而Java和C#等都需要添加

不要在行尾添加分号，也不要用分号将两条命令放在同一行，例如：

Python学习日记

python123汉字的unicode编码值

python的默认编码是ascii，可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码，比如：

u'汉字'

u'u6c49u5b57'

u'汉字'.encode('utf-8')

'xe6xb1x89xe5xadx97'

u'汉字'.encode('utf-8').decode('utf-8')

u'u6c49u5b57'

我们可以通过这两个函数设置编码。

那么，python中的str是什么类型？

import binascii

'汉字'

'xbaxbaxd7xd6'

type('汉字')

print binascii.b2a_hex('汉字')

babad7d6

print binascii.b2a_hex(u'汉字')

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode characters in

position 0-1: ordinal not in range(128)

print binascii.b2a_hex(u'汉字'.encode('utf-8'))

e6b189e5ad97

print binascii.b2a_hex(u'汉字'.encode('gbk'))

babad7d6

binascii是将数据的二进制转换成ascii，上面的解释是：‘汉字'的类型是str，二进制是babad7d6，u‘汉字'是无法转换成ascii，这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码，所有u'汉字'.encode(‘gbk')的时候，输出结果和‘汉字'结果一样。