什么是UTF8UTF8是一种存储和传输格式,而不是计算机代码。 如上所述,每个Unicode/UCS字符都存储在两个或四个字节中。 请看以下比较。
以“I am Chinese”为例
保存为ansi:12字节
保存为unicode/UC S2:24字节2字节(头) )。
用UCS4保存: 48字节4字节(header ) )。
以“我是中国人”为例
保存为ansi:10字节
保存为unicode/UC S2:10字节2字节(头) )。
保存为UC S4:20字节4字节(头) )。
由此可见,以Unicode/UCS的原始形式原样保存是非常浪费的,也不利于网络的传输(中文有点合算^_^ )。
由此可见,Unicode/UCS的压缩形式--UTF8问世,官方网站的第一句话“utf-8 standsforunicodetransformationformat-8.itisanoctet (8位
UTF8是8比特s或1字节作为编码的最基本单元,当然也有基于16比特和32比特的形式,分别被称为UTF16和UTF32,但是现在很少使用,UTF8是文件存储和网络传输
编码原理
请先看看这个模板:
UCS-4范围(hex.) utf-8octetsequence (二进制) )。
0000 0000-0000 007F 0xxxxx
xx
0000 0080-0000 07FF 110