今天用Spring框架,做了单元测试。发现我的文件中汉字占了3个字节。
感觉好像和我学的不符合啊,所以我查了一下。
我eclipse正是用的UTF-8的编码
总结如下:
GBK编码的时候,一个汉字占两个字节。
UTF-8编码是变长编码,通常汉字占三个字节,扩展B区以后的汉字占四个字节。
如果是UTF-16编码,通常一个汉字占两个字节,如果是CJKV扩展B区、C区、D区中的汉字占四个字节
(一般字符的Unicode范围是U+0000至U+FFFF,而这些扩展部分的范围大于U+20000,因而要用两个UTF-16)。