常用的sql语句(找不同位数,找重复)

时间:2022-06-10 11:47:37

1、SQL找不同位数

select length(aae135),count(1) from ac01 group by  length(aae135) ;

————————————————————————————————

2、SQL查询重复数据

有例表:emp

emp_no   name    age         001           Tom      17         002           Sun       14         003           Tom      15         004           Tom      16

要求:

列出所有名字重复的人的记录

(1)最直观的思路:要知道所有名字有重复人资料,首先必须知道哪个名字重复了:

select   name   from   emp       group   by   name     having   count(*)>1

所有名字重复人的记录是:

select   *   from   emp     where name   in   (select   name   from   emp group   by   name having count(*)>1)

(2)稍微再聪明一点,就会想到,如果对每个名字都和原表进行比较,大于2个人名字与这条记录相同的就是合格的 ,就有

select   *   from   emp   where   (select   count(*)   from   emp   e    where   e.name=emp.name)   >1

--注意一下这个>1,想下如果是 =1,如果是 =2 如果是>2 如果 e 是另外一张表 而且是=0那结果 就更好玩了:)

这个过程是 在判断工号为001的 人 的时候先取得 001的 名字(emp.name) 然后和原表的名字进行比较 e.name

注意e是emp的一个别名。

再稍微想得多一点,就会想到,如果有另外一个名字相同的人工号不与她他相同那么这条记录符合要求:

select   *   from   emp         where   exists                       (select   *   from   emp   e    where   e.name=emp.name   and   e.emp_no<>emp.emp_no)

此思路的join写法:

select   emp.*       from   emp,emp e         where emp.name=e.name and emp.emp_no<>e.emp_no/**/ /*     这个语句较规范的   join   写法是     select emp.* from   emp   inner join emp   e     on emp.name=e.name and emp.emp_no<>e.emp_no     但个人比较倾向于前一种写法,关键是更清晰     */     b、有例表:emp     name     age     Tom       16     Sun        14     Tom       16     Tom       16

----------------------------------------------------清除重复---------------------------------------------------- 过滤掉所有多余的重复记录 (1)我们知道distinct、group by 可以过滤重复,于是就有最直观的

select   distinct   *   from   emp     或     select   name,age   from   emp   group   by   name,age

获得需要的数据,如果可以使用临时表就有解法:

select   distinct   *   into   #tmp    from   emp       delete   from   emp       insert   into   emp   select   *   from   #tmp

(2)但是如果不可以使用临时表,那该怎么办? 我们观察到我们没办法区分数据(物理位置不一样,对 SQL Server来说没有任何区别),思路自然是想办法把数据区分出来了,既然现在的所有的列都没办法区分数据,唯一的办法就是再加个列让它区分出来,加什么列好?最佳选择是identity列:

alter   table   emp   add   chk   int   identity(1,1)

表示例:

name   age   chk         Tom     16     1         Sun      14     2         Tom     16     3         Tom     16     4

重复记录可以表示为:

select   *   from   emp where (select   count(*)   from   emp   e   where   e.name=emp.name)>1

要删除的是:

delete   from   emp     where (select   count(*)   from   emp   e     where   e.name=emp.name   and   e.chk>=emp.chk)>1

再把添加的列删掉,出现结果。

alter   table   emp   drop   column   chk

(3)另一个思路: 视图

select   min(chk) from   emp group   by   name having   count(*)   >1

获得有重复的记录chk最小的值,于是可以

delete from   emp where chk   not   in (select min(chk) from   emp group   by   name)

写成join的形式也可以:

(1)有例表:emp

emp_no    name    age         001            Tom      17         002            Sun       14         003            Tom      15         004            Tom      16

◆要求生成序列号 (1)最简单的方法,根据b问题的解法:

alter   table   emp   add   chk   int   identity(1,1)   或       select   *,identity(int,1,1)   chk   into   #tmp   from   emp

◆如果需要控制顺序怎么办?

select   top   100000   *,identity(int,1,1)   chk   into   #tmp   from   emp   order   by   age

(2) 假如不可以更改表结构,怎么办? 如果不可以唯一区分每条记录是没有办法的,在可以唯一区分每条记录的时候,可以使用a 中的count的思路解决这个问题

select   emp.*,(select   count(*)   from   emp   e   where   e.emp_no<=emp.emp_no)       from   emp       order   by   (select   count(*)   from   emp   e   where   e.emp_no<=emp.emp_no)

——————————————————————————————————————————————————————————————

Group by与having理解

注意:select 后的字段,必须要么包含在group by中,要么包含在having 后的聚合函数里。
1. GROUP BY 是分组查询, 一般 GROUP BY 是和聚合函数配合使用

group by 有一个原则,就是 select 后面的所有列中,没有使用聚合函数的列,必须出现在 group by 后面(重要)

例如,有如下数据库表:

A    B 1    abc 1    bcd

1    asdfg

如果有如下查询语句(该语句是错误的,原因见前面的原则)

select A,B from table group by A

该查询语句的意图是想得到如下结果(当然只是一相情愿)

A     B        abc 1     bcd

asdfg

右边3条如何变成一条,所以需要用到聚合函数,如下(下面是正确的写法):

select A,count(B) as 数量 from table group by A 这样的结果就是 A    数量 1    3

2. Having

where 子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据,条件中不能包含聚组函数,使用where条件显示特定的行。

having 子句的作用是筛选满足条件的组,即在分组之后过滤数据,条件中经常包含聚组函数,使用having 条件显示特定的组,也可以使用多个分组标准进行分组。

having 子句被限制子已经在SELECT语句中定义的列和聚合表达式上。通常,你需要通过在HAVING子句中重复聚合函数表达式来引用聚合值,就如你在SELECT语句中做的那样。例如:

SELECT A COUNT(B) FROM TABLE GROUP BY A HAVING COUNT(B)>2

3.使用compute和compute by   使用compute子句允许同时观察查询所得到各列的数据的细节以及统计各列数据所产生的汇总列       select * from work [查询所得到的各列的数据的细节]       compute max(基本工资),min(基本工资) [统计之后的结果]   这个例子中没有使用by关键字,返回的结果是最后添加了一行基本工资的最大值和最小值,也可增加by关键字.         例:select * from work order by 学历            compute max(基本工资),min(基本工资) by 学历         比较:select 学历,max(基本工资),min(基本工资) from work group by 学历         说明:1:compute子句必须与order by子句用在一起              2:compute子句可以返回多种结果集.一种是体现数据细节的数据集,可以按分类要求进行正确的分类;另一种在分类的基础上进行汇总产生结果.              3:而group by子句对每一类数据分类之后只能产生一个结果,不能知道细节

示例学习Northwind数据库:

非相关查询:

1:返回每个美国员工都为其处理过订单的所有客户

--思路:1:Employees表中获取美国员工总数2:Orders表中查询美国员工处理的Order,对CustomerID分组后,统计其不同的EmployeeID正好等于美国员工总数

Select CustomerID From Orders Where EmployeeID In         --得到美国员工服务 的客户

(Select EmployeeID From Employees Where Country=N'USA') -- 得到全部美国员工id

group by CustomerID                                         --按客户分组

Having Count(Distinct EmployeeID)=                    --为其处理订单的distinct 员工数等于美国总员工数

(Select Count(*) From Employees Where Country=N'USA')--美国员工总数

2:

返回在每月最后实际订单日期发生的订单(每月最后订单日期可能不是每月最后一天)

--思路:子查询按月分组得到每月最近订单日期

Select OrderID,CustomerID,EmployeeID,OrderDate

From Orders

Where OrderDate In

(Select Max(OrderDate) From Orders Group by Convert(char(6),OrderDate,112))--112表示YYYYMMDD char(6)提取YYYYMM

3.

Select字句在逻辑上是SQL语句最后进行处理的最后一步,所以,以下查询会发生错误:

SELECT OrderYear, COUNT(DISTINCT CustomerID) AS NumCusts FROM (SELECT YEAR(OrderDate) AS OrderYear, CustomerID    FROM dbo.Orders) AS D GROUP BY OrderYear ;因为group by是在Select之前进行的,那个时候orderYear这个列并没有形成。

如果要查询成功,可以像下面进行修改:

SELECT OrderYear, COUNT(DISTINCT CustomerID) AS NumCusts FROM (SELECT YEAR(OrderDate) AS OrderYear, CustomerID    FROM dbo.Orders) AS D GROUP BY OrderYear;还有一种很特殊的写法:

SELECT OrderYear, COUNT(DISTINCT CustomerID) AS NumCusts FROM (SELECT YEAR(OrderDate), CustomerID    FROM dbo.Orders) AS D(OrderYear, CustomerID) GROUP BY OrderYear;在作者眼里,他是非常喜欢这种写法的,因为更清晰,更明确,更便于维护。

在查询中使用参数定向产生一批结果,这个技巧没有什么好说的。

嵌套查询,在处理逻辑上是从里向外进行执行的。