首页 > 编程知识 正文

UTF-8编码格式,utf8完整编码表

时间:2023-05-03 21:02:36 阅读:22672 作者:4954

本文转载自http://www.cn blogs.com/daxiong 2014/p/4768681.html

1、ASCII码

在计算机内部,我们知道所有信息最终都表示为二进制字符串。 因为每个位有两种状态: 0和1,所以8个位可以组合256个状态,称为1字节。 也就是说,一个字节总共可以用于表示256种不同的状态,每个状态对应于从0000000到11111111的256个符号。

20世纪60年代,美国制定了统一规定英语文字与二进制位关系的字符编码。 这被称为ASCII码,至今仍在使用。

ASCII码一共规定了128个字符的代码。 例如,空格“SPACE”为32 (二进制00100000 ),大写字母a为65 (二进制01000001 )。 这128个符号(包括不能打印的32个控制符号)只占用1字节的低位7比特,开头1比特一律被定为0。

2、非ASCII编码

用128个符号编码英语就足够了,但用128个符号来表示其他语言是不够的。 例如,在法语中,如果字母上方有注音符号,则不能用ASCII代码表示。 因此,一些欧洲国家决定利用字节中空闲的最高有效位来合并新符号。 例如,法语的代码为130 (二进制10000010 )。 因此,这些欧洲国家所使用的代码体系最多可以表示256个符号。

但是,这里又出现了新的问题。 由于每个国家的字符都不同,因此即使使用256个符号的编码方式,代表性字符也不同。 例如,130在法语代码中表示,在希伯来语代码中表示字母Gimel ( (),在俄语代码中表示另一个符号。 无论如何,在所有这些编码方式中,0—127表示的符号相同,不同的只有128—255这一段。

关于亚洲各国的文字,使用的符号变多,汉字变为10万左右。 一个字节只能表示256种符号,肯定不够,所以必须使用多个字节来表示一个符号。 例如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,因此理论上最多可以表示256x256=65536个符号。

中文编码问题需要专门讨论,这个笔记没有关系。 在此指出,虽然都以多个字节表示一个符号,但GB系的汉字代码与后述的Unicode和UTF-8无关。

3、Unicode

如前一节所述,世界上存在很多编码方式,相同的二进制可以解释为不同的符号。 因此,要打开文档,必须知道其编码方式。 否则,如果用错误的编码方式解读,就会发生乱码。 为什么电子邮件经常乱码? 因为呼叫者和接收者使用的编码方式不同。

可以想象,有一个代码可以嵌入世界上所有的符号。 如果给每个符号赋予唯一的代码,就不会出现乱码问题了。 这就是Unicode。 正如名称所示,这是所有符号的代码。

Unicode当然是一个很大的聚会,按现在的规模可以容纳100万个以上的符号。 每个符号的代码都不同。 例如,U 0639表示阿拉伯字符Ain,U 0041表示英语大写字母a,U 4E25表示汉字“严”。 可以在unicode.org或专用的汉字对应表中查询具体的符号对应表。

4. Unicode的问题

必须注意的是Unicode只是一个符号集,它只规定了符号的二进制代码,但没有规定这个二进制代码应该如何存储

例如,汉字“严”的unicode是十六进制4E25,如果转换为二进制,则为15位(100111000100101 )。 也就是说,此符号的显示至少需要两个字节。 表示其他更大的符号可能需要3字节、4字节或更大的字节。

这里有两个严重的问题。第一个问题是:如何区分unicode和ascii? 计算机怎么知道三个字节代表一个符号,而不是每个符号代表三个符号?第二个问题是:我们已经知道,英文字母用一个字节表示就足够了。 如果unicode统一规定,每个符号用3字节或4字节表示,则每个英文字母前必须有2到3字节为0。 这对存储来说是非常浪费的,文本文件的大小会增加2-3倍。 这是不能接受的。

因此,1)有多种存储unicode的方法。 也就是说,有多种二进制格式可用于表示unicode。2)unicode在互联网出现之前很久没有普及。

5、UTF-8

 

        互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度

UTF-8的编码规则很简单,只有二条: 

1)对于单字节的符号,字节的第一位(字节的最高位)设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。 

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。 

Unicode符号范围 | UTF-8编码方式 
(十六进制) | (二进制) 
--------------------+--------------------------------------------- 
0000 0000-0000 007F | 0xxxxxxx 
0000 0080-0000 07FF | 110xxxxx 10xxxxxx 
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 

下面,还是以汉字“严”为例,演示如何实现UTF-8编码:
已知“严”的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000 FFFF),因此“严”的UTF-8编码需要三个字节,即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“严”的UTF-8编码是“11100100 10111000 10100101”,转换成十六进制就是E4B8A5。

6. Unicode与UTF-8之间的转换 

        通过上一节的例子,可以看到“严”的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现,在Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击“文件”菜单中的“另存为”命令,会跳出一个对话框,在最底部有一个“编码”的下拉条。
里面有四个选项:ANSI,Unicode,Unicode big endian 和 UTF-8:

ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版,如果是繁体中文版会采用Big5码)。Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。 Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。 UTF-8编码,也就是上一节谈到的编码方法。 

选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。 

 

7. Little endian和Big endian

        上一节已经提到,Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例,Unicode码是4E25,需要用两个字节存储,一个字节是4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。

        这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。

        因此,第一个字节在前,就是”大头方式“(Big endian),第二个字节在前就是”小头方式“(Little endian),那么很自然的,就会出现一个问题:计算机怎么知道某一个文件到底采用哪一种方式编码? 

        Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做”零宽度非换行空格“(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。

如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。

8. 实例 
        下面,举一个实例:
        打开”记事本“程序Notepad.exe,新建一个文本文件,内容就是一个”严“字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存,然后,用文本编辑软件UltraEdit中的”十六进制功能“,观察该文件的内部编码方式。 

1)ANSI:文件的编码就是两个字节“D1 CF”,这正是“严”的GB2312编码,这也暗示GB2312是采用大头方式存储的。 2)Unicode:编码是四个字节“FF FE 25 4E”,其中“FF FE”表明是小头方式存储,真正的编码是4E25。 3)Unicode big endian:编码是四个字节“FE FF 4E 25”,其中“FE FF”表明是大头方式存储。 4)UTF-8:编码是六个字节“EF BB BF E4 B8 A5”,前三个字节“EF BB BF”表示这是UTF-8编码,后三个“E4B8A5”就是“严”的具体编码,它的存储顺序与编码顺序是一致的。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。