设置mysql编码为utf8,ansi文字列unicode

编码

一. ANSI

编程语言是符号。一个符号的不同状态可以表示不同的信息，多个符号不同状态的组合构成了我们的语言世界。计算机起源于美国，系统中使用的符号都是基于英语字母构建的。结果，在以英语为主要语言的地区，使用计算机特别方便，不同的字符组合。

1.1、标准

的存储单元中，一个ANSI代码值占用一个字节或8位。这里只使用低位7位的二进制位，最高位b7作为奇偶校验位使用。0x00(0000000 )到0x7f (0111111 )共128个字符(0到127 )。

从0号到32号和127号，共计34个字符为控制字符或通信专用字符。

33号到126号是文字，其中48号到57号是0到9号是阿拉伯数字，65到90是26个大写字母

奇偶校验：

是检查代码在传输中是否发生错误的方法之一，一般分为奇检查和偶检查。

奇偶校验：

正确代码的1字节中的1的个数必须为奇数，如果不是奇数，则对最高位比特b7加1

偶校验：

正确代码的1字节中的1的个数必须是偶数，如果不是偶数，则将1加到最高有效位b7

1.2、扩展

标准的ANSI表示英语语言没有问题，但不能复盖中文的文字构成。因此，在每个地区扩展ANSI，以满足地区的使用需求。

1.2.1、GB2312

的默认简体中文代码使用128个以上的字符表示一个中文汉字，由6762个常用汉字和682个全角非汉字字符组成。对于使用此代码的系统，GB2312指的是ANSI代码。

1.2.2、GBK

以GB2312为基础扩展为追加中文偏旁字和繁体字。同样是2字节，高字节是127号内码，低字节不要求127号以后。

1.2.3、GB18030

在GBK上进行了扩展以满足少数民族的使用。

二. Unicode

由于各个国家和地区将ANSI区域化展开，结果信息无法互通，无法解码。要正常显示中文，需要安装中文代码。否则，系统的显示、输入和输出会变成乱码。国际标准化组织(ISO )决定废除所有地区代码，采用包含世界所有文化、所有文字和符号的代码——UCS。此编码要求所有字符都用双字节编码。

2.1、通用格式(utf-8 ) )。

是Unicode的一种网络传输实现方式，存储器以8位为基本单位，采用可变长度编码。同时与ANSI兼容

单字节：

0x xxxxxxxx

2字节：

11XXXXXX 10XXXXXX

3字节：

11 xxxxxxxx 10 xxxxxxx 10 xxxxxxx

4字节：

1111 xxxx 10 xxxxxxx 10 xxxxxxxx 10 xxxxxxxx

2.2、utf-16 (用户传输格式) )。

一种unicode编码的网络传输实现方式，每次传输16位。同时也是Unicode代码的直接实现。

2.3、utf-32 (用户传输格式) )。

unicode编码的网络传输实现之一，每次传输32位。

三.rn与n及r的差异

3.1、rn

Windows操作系统的文本换行结束标志。使用该系统读取文件所用的方式不同，结果也不同

文本格式(字符流、缓冲区使用) ) )。

读取文件时，rn将自动转换为n

写入文件时，n将自动转换为rn

二进制格式(字节流、直接操作文件) ) ) )。

无论是读取/写入，都没有转换。

3.2、n

Linux操作系统的文本换行符结束标志。

3.3、r

IOsOS文本换行结束标志。

四.参考