首页 > 编程知识 正文

mysql数据库之去重(数据库去重有几种方法)

时间:2023-12-07 13:39:21 阅读:312838 作者:UUND

本文目录一览:

  • 1、怎么删除重复的Mysql数据?
  • 2、mysql删除重复数据,保留一条
  • 3、mysql数据库中怎么删除重复的数据
  • 4、mysql中去重 用group by优化distinct 用法
  • 5、MySql操作「数据查询」-20211222

怎么删除重复的Mysql数据?

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考。

第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表

1 create table tmp3 as select min(id) as col1 from data_content_152 group by SFZHM;

第二步:创建新表RES

1234 CREATE TABLE `res` (`id` int(11),`sfz` char(20)) ENGINE=MyISAM;

第三步:把TMP3表ID对应到data_content_152里需要提取的数据添加到RES表的SFZ字段

1 INSERT INTO res (sfz) SELECT sfzhm FROM data_content_152,tmp3 where data_content_152.id=tmp3.col1

至此,就在MYSQL里实现了,给数据表data_content_152完全删除重复数据,把去重复后的数据导入到RES表。

mysql删除重复数据,保留一条

mysql数据表中有多条重复数据记录,现在想删除删除部分重复数据,保留最后一条更新或者插入的数据。

以学生表为例,我们创建一个简单的数据表来做实验:

往表里面插入一些实验数据:

我们可以根据分组查询先将重复数据查询出来,同时也可以获取到最后的更新时间,然后再与原表联表查询小于最大时间的数据,将查询出来的数据删除。

------先来慢慢消化-------

在做删除前,我们可以先看看有哪些数据是有重复的:

可以看到张三,李四,王五的数据是有重复的,赵六没有重复,下面我们查找最后更新的记录。

可以看到,最后更新的数据为15:57:46的记录没有在结果中。

可以看到重复记录已经被清理掉。

假如有两行记录是完全一样的,这个方法就不可行了,往表里面在跑一次数据插入:

执行删除计划:

创建一个临时表存放最后插入的一条数据(包含重复与没有重复的),然后清空原表,再将临时表的数据复制到原表中,最后把临时表删除。

这个很好理解,相当于ctrl+c,ctrl+v的操作,数据表如下:

这样数据去重就完成了,需要注意的是, 如果表数据量很大,注意在group by 里面的字段建立索引,同时,生产环境注意好先进行数据备份操作 。

mysql数据库中怎么删除重复的数据

不建议直接删除,养成良好的习惯(删除更麻烦),以下是将去重后的数据转移到另一张表代码:

Insert into 表名(列名)select distinct 列名 from 表名

你可以按照去重的思路,删除重复数据

mysql中去重 用group by优化distinct 用法

在使用 MySQL 时,有时需要查询出某个字段不重复的记录,这时可以使用mysql提供的distinct这个关键字来过滤重复的记录,但是实际中我们往往用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段,例如有如下表user:

用distinct来返回不重复的用户名:select distinct name from user;,结果为:

这样只把不重复的用户名查询出来了,但是用户的id,并没有被查询出来:select distinct name,id from user;,这样的结果为:

distinct name,id 这样的mysql 会认为要过滤掉name和id两个字段都重复的记录,如果sql这样写:select id,distinct name from user,这样mysql会报错,因为distinct必须放在要查询字段的开头。

所以一般distinct用来查询不重复记录的条数。

如果要查询不重复的记录,有时候可以用group by :

select id,name from user group by name;

MySql操作「数据查询」-20211222

# SELECT 数据查询

## 基础

显示如何使用简单的`select`语句查询单个表中的数据 使用`SELECT`语句从表或视图获取数据。

表由行和列组成,如电子表格。 通常,我们只希望看到子集行,列的子集或两者的组合。

SELECT语句的结果称为结果集,它是行列表,每行由相同数量的列组成。

select 语法

SELECT语句由以下列表中所述的几个子句组成:

1. SELECT 之后是逗号分隔列或星号(*)的列表,表示要返回所有列。

2. FROM 指定要查询数据的表或视图。

3. JOIN 根据某些连接条件从其他表中获取数据。

4. WHER E过滤结果集中的行。

5. GROUP BY将一组行组合成小分组,并对每个小分组应用聚合函数。

6. HAVING 过滤器基于GROUP BY子句定义的小分组。

7. ORDER BY 指定用于排序的列的列表。

8. LIMIT 限制返回行的数量。

语句中的`SELECT`和`FROM`语句是必须的,其他部分是可选的。

`SELECT`语句允许通过在`SELECT`子句中指定逗号分隔列的列表来查询表的部分数据

建议显式获取数据的列,原因如下:

1. 使用星号(*)可能会返回不使用的列的数据。 它在MySQL数据库服务器和应用程序之间产生不必要的I/O磁盘和网络流量。

2. 如果明确指定列,则结果集更可预测并且更易于管理。 想象一下,当您使用星号(*)并且有人通过添加更多列来更改表格数据时,将会得到一个与预期不同的结果集。

3. 使用星号(*)可能会将敏感信息暴露给未经授权的用户

格式 `select 列筛选 form table where 行筛选`

还有一些有用的运算符可以在WHERE子句中使用来形成复杂的条件,例如:

BETWEEN 选择在给定范围之内的值。

LIKE 匹配基于模式匹配的值。

IN 指定值是否匹配列表中的任何值。

IS NULL 检查该值是否为NULL。

## SELECT 子查询

在一个查询过程中 嵌套另一个查询,子查询的结果作为外部查询的条件或者数据范围来使用。

分为 3 类:

1. where 型

- `select展示列名 from 表名 where 列名 运算符[in...] (select 对应列名 from ...)`

- 这个列名 和 对应列名 应该做到类型相同

- 如果不加入运算符 也可使用IN 这些类似的符号 - `select 展示列名 from 表名 where 列名 in (select 对应列名 from ...)`

- ex:

`select 展示列名 from 表名 where 列名 ALL(select 对应列名 from ....)`;

比子查询的值都大

`select 展示列名 from 表名 where 列名 ANY(select 对应列名 from ....);`

比子查询的任意一个值大

2. from 型

- `select 展示列名 from 表名 inner join (select 列名 from ...) 临时表名 on 条件;`

- 其中,select的子查询所得的表 为临时表,后跟临时表名,可在条件判断中指代

3. exist 型

- `select 展示列 from 表名 where exists (select 列名 from 表名 where 条件);`

- 将主查询的结果带入子查询进行条件判断和匹配,如果查询出结果即保留。

## 去重 DISTINCT

SELECT 语句执行简单的数据查询时,返回的是所有匹配的记录。`distinct` 实现查询不重复的数据

**DISTINCT 关键字的主要作用就是对数据表中一个或多个字段重复的数据进行过滤,只返回其中的一条数据给用户。**

使用 `DISTINCT` 关键字时需要注意以下几点:

- `DISTINCT` 关键字只能在 `SELECT` 语句中使用。

- 在对一个或多个字段去重时,`DISTINCT` 关键字必须在所有字段的最前面。

- 如果 `DISTINCT` 关键字后有多个字段,则会对多个字段进行组合去重,也就是说,只有多个字段组合起来完全是一样的情况下才会被去重。

## 指定别名 AS

### 1. 为表指定别名

1. 当表名很长的时候 或者 执行了一些特殊的查询的时候,为方便操作,可以为表指定一个别名,用以替代原来的名称

2. 语法.

3. `表名 as 别名` - 含义: - `表名` : 数据库中存储的数据表名称。

- `别名` : 查询的时候指定的新的名称。

- `as` : 此关键字 可以 省略,省略之后要将 `表名`与`别名`用 `空格` 分开

** *注意:表的别名不能与该数据库的其它表同名。字段的别名不能与该表的其它字段同名。在条件表达式中不能使用字段的别名,否则会出现“ERROR 1054 (42S22): Unknown column”这样的错误提示信息。* **

*** ex1:

***

### 2. 为字段指定别名

1. 在使用 SELECT 语句查询数据时,MySQL 会显示每个 SELECT 后面指定输出的字段。有时为了显示结果更加直观,我们可以为字段指定一个别名。

2. 语法:

3. `字段名 [AS] 别名`

- 含义:

- `字段名`:为数据表中字段定义的名称。

- `字段别名`:字段新的名称。

- `AS` 关键字可以省略,省略后需要将字段名和别名用空格隔开

** *注意:表别名只在执行查询时使用,并不在返回结果中显示。而字段定义别名之后,会返回给客户端显示,显示的字段为字段的别名* ** ***

ex2:

***

## 限制查询条数 LIMIT

1. LIMIT 关键字有 3 种使用方式,即

- `指定初始位置`、

- `不指定初始位置`

- `OFFSET 组合`使用

(。。。。。 我之前一直不知道, 只会使用 `limit 200`。。。。。)

### 指定初始位置

1. 语法

- `LIMIT 初始位置,记录数`

- 初始位置”表示从哪条记录开始显示;第一条记录的位置是 0,第二条记录的位置是 1。后面的记录依次类推。

- “记录数”表示显示记录的条数。

- *LIMIT 后的两个参数必须都是正整数。

* ex:tb_students_info 表中,使用 LIMIT 子句返回从第 4 条记录开始的行数为 5 的记录,SQL 语句和运行结果如下。

### 不指定初始位置

记录从第一条记录开始显示。显示记录的条数由 LIMIT 关键字指定。

1. 语法

- `LIMIT 5`

- `SELECT * FROM tb_students_info LIMIT 15;`

### LIMIT 和 OFFSET 组合使用

1. 语法

- `LIMIT 记录数 OFFSET 初始位置`

- 参数和 LIMIT 语法中参数含义相同,“初始位置”指定从哪条记录开始显示;“记录数”表示显示记录的条数。

该语句返回的是从第 4 条记录开始的之后的 5 条记录。即“ LIMIT 5 OFFSET 3 ”意思是获取从第 4 条记录开始的后面的 5 条记录,和“ LIMIT 3 , 5 ”返回的结果相同。

*** 2021-12-22 今天先学到这里 明天继续 MySql 的查询 学习

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。