mysql数据库范式（mysql数据库范式作业）

本文目录一览：

1、第一范式第二范式第三范式怎么区分？
2、什么是数据库中的规范化?
3、数据库（mysql）关键知识
4、MySQL数据库性能优化之分区分表分库
5、数据库第二范式和第三范式的区别的是什么？

第一范式第二范式第三范式怎么区分？

满足第一范式就是每个属性都不可在拆分，满足第二范式，非属性值要完全依赖主编码非码属性不相互依赖，满足第三范式，不存在传递依赖。

什么是数据库中的规范化?

规范化理论把关系应满足的规范要求分为几级，满足最低要求的一级叫做第一范式(1NF)，在第一范式的基础上提出了第二范式(2NF)，在第二范式的基础上又提出了第三范式(3NF)，以后又提出了BCNF范式，4NF，5NF。范式的等级越高，应满足的约束集条件也越严格。

第一范式（1NF）

在关系模式R中中，如果每个属性值都是不可再分的原子属性，则称R是第一范式的关系[2]。例如：关系R（职工号，姓名，电话号码）中一个人可能有一个办公室电话和一个住宅电话号码，规范成为1NF的方法一般是将电话号码分为单位电话和住宅电话两个属性，即 R（职工号，姓名，办公电话，住宅电话）。1NF是关系模式的最低要求。

第二范式（2NF）

如果关系模式R是1NF且其中的所有非主属性都完全函数依赖于关键字，则称关系R 是属于第二范式的[2]。例：选课关系 SC（SNO，CNO，GRADE，CREDIT）其中SNO为学号， CNO为课程号，GRADEGE 为成绩，CREDIT 为学分。由以上条件，关键字为组合关键字（SNO，CNO）。在应用中使用以上关系模式有以下问题：（1）数据冗余，假设同一门课由40个学生选修，学分就重复40次；（2）更新复杂，若调整了某课程的学分，相应元组的CREDIT值都要更新，有可能会出现同一门课学分不同；（3）插入异常，如计划开新课，由于没人选修，没有学号关键字，只能等有人选修才能把课程和学分存入；（4）.删除异常，若学生已经结业，从当前数据库删除选修记录，而某些课程新生尚未选修，则此门课程及学分记录无法保存。以上问题产生的原因是非主属性CREDIT仅函数依赖于CNO，也就是CREDIT部分依赖组合关键字（SNO，CNO）而不是完全依赖。解决方法是将以上关系分解成两个关系模式 SC（SNO，CNO，GRADE）和C（CNO，CREDIT）。新关系包括两个关系模式，它们之间通过SC中的外键CNO相联系，需要时再进行自然联接，恢复原来的关系

第三范式（3NF）

如果关系模式R是2NF且其中的所有非主属性都不传递依赖于码，则称关系R是属于第三范式的[1]。例如关系模式S（SNO，SNAME，DNO，DNAME，LOCATION）中各属性分别代表学号、姓名、所在系、系名称、系地址。关键字SNO决定各个属性。由于是单个关键字，没有部分依赖的问题，肯定是2NF。但关系S肯定有大量的冗余，有关学生所在系的几个属性DNO，DNAME，LOCATION将重复存储，插入、删除和修改时也将产生类似以上例的情况。原因在于关系中存在传递依赖，即SNO - DNO，DNO - LOCATION, 因此关键字SNO对LOCATION函数决定是通过传递依赖SNO - LOCATION 实现的。也就是说，SNO不直接决定非主属性LOCATION。解决方法是将该关系模式分解为两个关系S（SNO，SNAME，DNO）和D（DNO，DNAME，LOCATION），两个关系通过S中的外键DNO联系。

BC范式(BCNF)

如果关系模式R的所有属性（包括主属性和非主属性）都不传递依赖于R的任何候选关键字，那么称关系R是属于BCNF的。或者说关系模式R中，如果每个决定因素都包含关键字（而不是被关键字所包含），则R是BCNF[3]。通常认为BCNF是修正的第三范式，有时也称为扩充的第三范式。

数据库（mysql）关键知识

Mysql是目前互联网使用最广的关系数据库，关系数据库的本质是将问题分解为多个分类然后通过关系来查询。一个经典的问题是用户借书，三张表，一个用户，一个书，一个借书的关系表。当需要查询某个用户借书情况或者是书被那些人借了，就用关系查询来实现。

关系数据库范式

来自英文Normal form，简称NF。要想设计—个好的关系，必须使关系满足一定的约束条件，满足这些规范的数据库是简洁的、结构明晰的，同时，不会发生插入(insert)、删除(delete)和更新(update)操作异常。总共有六种范式：第一范式（1NF）、第二范式（2NF）、第三范式（3NF）、巴斯-科德范式（BCNF）、第四范式 (4NF）和第五范式（5NF，又称完美范式）。

1NF是指数据库表的每一列都是不可分割的原子数据项。2NF必须满足1NF，要求数据库表中的每行记录必须可以被唯一地区分。3NF在2NF基础上，任何非主属性不依赖于其它非主属性（在2NF基础上消除传递依赖）。BCNF是在3NF基础上，任何非主属性不能对主键子集依赖（在3NF基础上消除对主码子集的依赖），满足BCNF不再会有任何由于函数依赖导致的异常，但是我们还可能会遇到由于多值依赖导致的异常。4NF的定义很简单：已经是BC范式，并且不包含多值依赖关系。5NF处理的是无损连接问题，这个范式基本没有实际意义，因为无损连接很少出现，而且难以察觉。而域键范式试图定义一个终极范式，该范式考虑所有的依赖和约束类型，但是实用价值也是最小的，只存在理论研究中。

Catalog和Schema

是数据库对象命名空间中的层次，主要用来解决命名冲突的问题。从概念上说，一个数据库系统包含多个Catalog，每个Catalog又包含多个Schema，而每个Schema又包含多个数据库对象（表、视图、字段等）。但是Mysql的数据库名就是Schema，不支持Catalog。

Mysql的数据库引擎主要有两种MyISAM和InnoDB，MyISAM支持全文检索，InnoDB支持事务。

SQL中的通配符‘%’代表任意字符出现任意次数。‘_’代表任意字符出现一次。SQL与正则表达式结合查询一般用在WHERE table_name REGEXP '^12.34'。子查询是从里到外执行。

数据库联结（join）涉及到外键，外键是指一个表的列是另一个表的主键，那么它就是外键。笛卡尔积联结（不指定联结条件时）生成的记录条目是单纯的第一个表的行乘以第二个表的列数。用得最多的是等值联结也叫内部联结。

高级联结还有自连接，是指查询中的两张表是同一张表，它通常作为外部语句用来代替从相同表中检索数据时使用的子查询。自然联结使每个列只返回一次。外部联结是指联结包含了那些在相关表中没有关联行的行。例如列出所有产品及其订购数量，包括没有人订购的产品。LEFT OUTER JOIN指选择左边表的所有行。

组合查询是指采用UNION等将两个查询结果取并集。

视图是查看存储在别处的数据的一种工具，它本身并不包含数据，因此表的数据修改了，视图返回的数据也将随之修改，因此如果使用了复杂或嵌套视图会对性能有较大的影响。视图的作用之一是隐藏复杂的SQL通常会涉及到联结查询。

存储过程类似于批处理，包含了一条或多条SQL语句。语法：

CREATE PROCEDURE name（）

BEGIN

SQL

END

-------------------------

CALL name（）//来调用存储过程

游标有DECLARE定义，游标与存储过程是绑定的，存储过程处理完成，游标就会消失。游标被打开后可以使用FETCH语句访问每一行。

触发器是在某个时间发生时自动执行某条SQL语句。语法：

CREATE TRIGGER name AFTER INSERT ON talbe_name FOR EACH ROW

事务处理可以维护数据库的完整性，保证批量的操作要么完全执行，要么完全不执行。包括事务、回退、提交、保留点几个关键术语。ROLLBACK只能在一个事务处理内使用。他不能回退CREATE和DROP操作。使用COMMIT保证事务提交。复杂的事务处理需要部分提交或回退，因此我们需要使用保留点SAVEPOINT。可以使用ROLLBACK TO savepoint_name。保留点越多越好。保留点在事务执行完成后自动释放。

MySQL数据库性能优化之分区分表分库

分表是分散数据库压力的好方法。

分表，最直白的意思，就是将一个表结构分为多个表，然后，可以再同一个库里，也可以放到不同的库。

当然，首先要知道什么情况下，才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。

分表的分类

**1、纵向分表**

将本来可以在同一个表的内容，人为划分为多个表。（所谓的本来，是指按照关系型数据库的第三范式要求，是应该在同一个表的。）

分表理由：根据数据的活跃度进行分离，（因为不同活跃的数据，处理方式是不同的）

案例：

对于一个博客系统，文章标题，作者，分类，创建时间等，是变化频率慢，查询次数多，而且最好有很好的实时性的数据，我们把它叫做冷数据。而博客的浏览量，回复数等，类似的统计信息，或者别的变化频率比较高的数据，我们把它叫做活跃数据。所以，在进行数据库结构设计的时候，就应该考虑分表，首先是纵向分表的处理。

这样纵向分表后：

首先存储引擎的使用不同，冷数据使用MyIsam 可以有更好的查询数据。活跃数据，可以使用Innodb ,可以有更好的更新速度。

其次，对冷数据进行更多的从库配置，因为更多的操作时查询，这样来加快查询速度。对热数据，可以相对有更多的主库的横向分表处理。

其实，对于一些特殊的活跃数据，也可以考虑使用memcache ,redis之类的缓存，等累计到一定量再去更新数据库。或者mongodb 一类的nosql 数据库，这里只是举例，就先不说这个。

**2、横向分表**

字面意思，就可以看出来，是把大的表结构，横向切割为同样结构的不同表，如，用户信息表，user_1,user_2等。表结构是完全一样，但是，根据某些特定的规则来划分的表，如根据用户ID来取模划分。

分表理由：根据数据量的规模来划分，保证单表的容量不会太大，从而来保证单表的查询等处理能力。

案例：同上面的例子，博客系统。当博客的量达到很大时候，就应该采取横向分割来降低每个单表的压力，来提升性能。例如博客的冷数据表，假如分为100个表，当同时有100万个用户在浏览时，如果是单表的话，会进行100万次请求，而现在分表后，就可能是每个表进行1万个数据的请求（因为，不可能绝对的平均，只是假设），这样压力就降低了很多很多。

延伸：为什么要分表和分区？

日常开发中我们经常会遇到大表的情况，所谓的大表是指存储了百万级乃至千万级条记录的表。这样的表过于庞大，导致数据库在查询和插入的时候耗时太长，性能低下，如果涉及联合查询的情况，性能会更加糟糕。分表和表分区的目的就是减少数据库的负担，提高数据库的效率，通常点来讲就是提高表的增删改查效率。

什么是分表？

分表是将一个大表按照一定的规则分解成多张具有独立存储空间的实体表，我们可以称为子表，每个表都对应三个文件，MYD数据文件，.MYI索引文件，.frm表结构文件。这些子表可以分布在同一块磁盘上，也可以在不同的机器上。app读写的时候根据事先定义好的规则得到对应的子表名，然后去操作它。

什么是分区？

分区和分表相似，都是按照规则分解表。不同在于分表将大表分解为若干个独立的实体表，而分区是将数据分段划分在多个位置存放，可以是同一块磁盘也可以在不同的机器。分区后，表面上还是一张表，但数据散列到多个位置了。app读写的时候操作的还是大表名字，db自动去组织分区的数据。

**MySQL分表和分区有什么联系呢？**

1、都能提高mysql的性高，在高并发状态下都有一个良好的表现。

2、分表和分区不矛盾，可以相互配合的，对于那些大访问量，并且表数据比较多的表，我们可以采取分表和分区结合的方式（如果merge这种分表方式，不能和分区配合的话，可以用其他的分表试），访问量不大，但是表数据很多的表，我们可以采取分区的方式等。

3、分表技术是比较麻烦的，需要手动去创建子表，app服务端读写时候需要计算子表名。采用merge好一些，但也要创建子表和配置子表间的union关系。

4、表分区相对于分表，操作方便，不需要创建子表。

我们知道对于大型的互联网应用，数据库单表的数据量可能达到千万甚至上亿级别，同时面临这高并发的压力。Master-Slave结构只能对数据库的读能力进行扩展，写操作还是集中在Master中，Master并不能无限制的挂接Slave库，如果需要对数据库的吞吐能力进行进一步的扩展，可以考虑采用分库分表的策略。

**1、分表**

在分表之前，首先要选中合适的分表策略（以哪个字典为分表字段，需要将数据分为多少张表），使数据能够均衡的分布在多张表中，并且不影响正常的查询。在企业级应用中，往往使用org_id(组织主键)做为分表字段，在互联网应用中往往是userid。在确定分表策略后，当数据进行存储及查询时，需要确定到哪张表里去查找数据，

数据存放的数据表 = 分表字段的内容 % 分表数量

**2、分库**

分表能够解决单表数据量过大带来的查询效率下降的问题，但是不能给数据库的并发访问带来质的提升，面对高并发的写访问，当Master无法承担高并发的写入请求时，不管如何扩展Slave服务器，都没有意义了。我们通过对数据库进行拆分，来提高数据库的写入能力，即所谓的分库。分库采用对关键字取模的方式，对数据库进行路由。

数据存放的数据库=分库字段的内容%数据库的数量

**3、即分表又分库**

数据库分表可以解决单表海量数据的查询性能问题，分库可以解决单台数据库的并发访问压力问题。

当数据库同时面临海量数据存储和高并发访问的时候，需要同时采取分表和分库策略。一般分表分库策略如下：

中间变量 = 关键字%（数据库数量*单库数据表数量）

库 = 取整（中间变量/单库数据表数量）

表 = （中间变量%单库数据表数量）

实例：

1、分库分表

很明显，一个主表（也就是很重要的表，例如用户表）无限制的增长势必严重影响性能，分库与分表是一个很不错的解决途径，也就是性能优化途径，现在的案例是我们有一个1000多万条记录的用户表members,查询起来非常之慢，同事的做法是将其散列到100个表中，分别从members0到members99，然后根据mid分发记录到这些表中，牛逼的代码大概是这样子：

复制代码代码如下:

?php

for($i=0;$i 100; $i++ ){

//echo "CREATE TABLE db2.members{$i} LIKE db1.members

echo "INSERT INTO members{$i} SELECT * FROM members WHERE mid%100={$i}

}

2、不停机修改mysql表结构

同样还是members表，前期设计的表结构不尽合理，随着数据库不断运行，其冗余数据也是增长巨大，同事使用了下面的方法来处理：

先创建一个临时表：

/*创建临时表*/

CREATE TABLE members_tmp LIKE members

然后修改members_tmp的表结构为新结构，接着使用上面那个for循环来导出数据，因为1000万的数据一次性导出是不对的，mid是主键，一个区间一个区间的导，基本是一次导出5万条吧，这里略去了

接着重命名将新表替换上去：

/*这是个颇为经典的语句哈*/

RENAME TABLE members TO members_bak,members_tmp TO members;

就是这样，基本可以做到无损失，无需停机更新表结构，但实际上RENAME期间表是被锁死的，所以选择在线少的时候操作是一个技巧。经过这个操作，使得原先8G多的表，一下子变成了2G多。

数据库第二范式和第三范式的区别的是什么？

一、含义不同：

第二范式（2NF）：关系模式R属于第一范式，且每个非主属性都完全函数依赖于键码。

第三范式（3NF）：关系模式R属于第一范式，且每个非主属性都不伟递领带于键码。

二、内容不同：

第二范式（2NF）：首先是 1NF，另外包含两部分内容，一是表必须有一个主键；二是没有包含在主键中的列必须完全依赖于主键，而不能只依赖于主键的一部分。

第三范式（3NF）：首先是 2NF，另外非主键列必须直接依赖于主键，不能存在传递依赖。即不能存在：非主键列 A 依赖于非主键列 B，非主键列 B 依赖于主键的情况。

第二范式

通常称这种关系为函数依赖(Functional dependence)关系，即表中其他数据元素都依赖于主关键字,或称该数据元素惟一地被主关键字所标识。第二范式是数据库规范化中所使用的一种正规形式。它的规则是要求数据表里的所有非主属性都要和该数据表的主键有完全依赖关系；如果有哪些非主属性只和主键的一部份有关的话，它就不符合第二范式。

以上内容参考：百度百科-第二范式