首页 > 编程知识 正文

设置mysql编码为utf8,ansi文字列unicode

时间:2023-05-03 07:35:25 阅读:151165 作者:3880

编码

一. ANSI

编程语言是符号。 一个符号的不同状态可以表示不同的信息,多个符号不同状态的组合构成了我们的语言世界。 计算机起源于美国,系统中使用的符号都是基于英语字母构建的。 结果,在以英语为主要语言的地区,使用计算机特别方便,不同的字符组合。

1.1、标准

的存储单元中,一个ANSI代码值占用一个字节或8位。 这里只使用低位7位的二进制位,最高位b7作为奇偶校验位使用。0x00(0000000 )到0x7f (0111111 )共128个字符(0到127 )。

从0号到32号和127号,共计34个字符为控制字符或通信专用字符。

33号到126号是文字,其中48号到57号是0到9号是阿拉伯数字,65到90是26个大写字母

奇偶校验:

是检查代码在传输中是否发生错误的方法之一,一般分为奇检查和偶检查。

奇偶校验:

正确代码的1字节中的1的个数必须为奇数,如果不是奇数,则对最高位比特b7加1

偶校验:

正确代码的1字节中的1的个数必须是偶数,如果不是偶数,则将1加到最高有效位b7

1.2、扩展

标准的ANSI表示英语语言没有问题,但不能复盖中文的文字构成。 因此,在每个地区扩展ANSI,以满足地区的使用需求。

1.2.1、GB2312

的默认简体中文代码使用128个以上的字符表示一个中文汉字,由6762个常用汉字和682个全角非汉字字符组成。 对于使用此代码的系统,GB2312指的是ANSI代码。

1.2.2、GBK

以GB2312为基础扩展为追加中文偏旁字和繁体字。 同样是2字节,高字节是127号内码,低字节不要求127号以后。

1.2.3、GB18030

在GBK上进行了扩展以满足少数民族的使用。

二. Unicode

由于各个国家和地区将ANSI区域化展开,结果信息无法互通,无法解码。 要正常显示中文,需要安装中文代码。 否则,系统的显示、输入和输出会变成乱码。 国际标准化组织(ISO )决定废除所有地区代码,采用包含世界所有文化、所有文字和符号的代码——UCS。 此编码要求所有字符都用双字节编码。

2.1、通用格式(utf-8 ) )。

是Unicode的一种网络传输实现方式,存储器以8位为基本单位,采用可变长度编码。 同时与ANSI兼容

单字节:

0x xxxxxxxx

2字节:

11XXXXXX 10XXXXXX

3字节:

11 xxxxxxxx 10 xxxxxxx 10 xxxxxxx

4字节:

1111 xxxx 10 xxxxxxx 10 xxxxxxxx 10 xxxxxxxx

2.2、utf-16 (用户传输格式) )。

一种unicode编码的网络传输实现方式,每次传输16位。 同时也是Unicode代码的直接实现。

2.3、utf-32 (用户传输格式) )。

unicode编码的网络传输实现之一,每次传输32位。

三.rn与n及r的差异

3.1、rn

Windows操作系统的文本换行结束标志。 使用该系统读取文件所用的方式不同,结果也不同

文本格式(字符流、缓冲区使用) ) )。

读取文件时,rn将自动转换为n

写入文件时,n将自动转换为rn

二进制格式(字节流、直接操作文件) ) ) )。

无论是读取/写入,都没有转换。

3.2、n

Linux操作系统的文本换行符结束标志。

3.3、r

IOsOS文本换行结束标志。

四.参考

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。