中文汉字编码知识
汉字的编码体系主要有以下几个。
⑴国标、区位、“准国标”
国标是将7000多个汉字、标点符号、外语字母等排列成94行、94列的方阵。 方阵各横行称为一个“区”,各区有94个“位”。 方阵中汉字的坐标,称为该字的区位代码。 以与美国国标(ASCII )的图像代码范围重叠的方式,出现了“国标代码”。 也就是说,将区号的两个十进制数加32,得到该汉字的国标码。
需要区分国标码和美国国标码时,国标码的两个数字分别加128,出现了将原国标码称为“纯国标码”的“准国标”。
GBK码是GBK码的扩展字符编码,最多编码了2万多个简单的汉字。
BIG5代码是针对繁体字的汉字代码。
⑷ HZ代码
HZ码是网络上广泛使用的汉字码之一,以“纯国标”中文和米标码混用为方案。
⑸ ISO 2022 CJK代码
这是国际标准化组织为各种语言的文字制定的代码标准。 CJK是中、日、韩语的总称。 主要在网上使用。
⑹ UCS和ISO 10646
UCS由ISO 10646定义,是其他字符集标准的超集,确保与其他字符集的双向兼容性,并包含所有已知语言的字符。
Unicode提供了一种统一的16位代码字符识别方法,包括全球计算机和出版业使用的所有字符代码。 然后,其生成以各国或国标字符编码为基础。 目前,Unicode正被网络、Windows系统和许多大型软件使用。
各中文代码对应的代码区间总结
一. ascii码编码区间(所有中文编码中的ascii码编码相同)。
1 )单字节ASCII码:0x00-0x7F
2 )扩展ASCII码:0x80-0xFF
GB2312字节码区间:
高字节低字节
0xA1-0xF70xA1-0xFE
Big5字节码区间:
高字节低字节
0xA1-0xF90x40-0x7E
0xA1-0xF90xA1-0xFE
4.GB18030(1.2.4字节)编码区间
1 )单字节ASCII编码区间:0x00-0x7F
2 ) 2字节编码区间:
高字节低字节
0x81-0xFE0x40-0x7E
0x81-0xFE0x80-0xFE
3 ) 4字节编码区间:
0x81308130 -0xFE39FE39
第1,3个字节都由0x81-0xFE组成
第2,4个字节都由0x30-0x39组成
utf-8编码,1-6字节配置:0xxxxx
xx
110