select 后的字段,必须要么包含在group by中,要么包含在having后的聚合函数里。(?)
1、group by是分组查询,一般group by是和聚合函数配合使用
group by有一个原则,就是select后面的所有列中,没有使用聚合函数的列,必须出现在group by后面(重要)
例如:有如下数据库表:
A B
1 abc
2 bcd
3 dfsa
如果有如下查询语句(该语句是错误的,原因见前面的原则)
select A,B from table group by A
该查询语句是想得到如下结果(显然是错误的):
A B
abc
1 bcd
dfsa
右边3条如何变成一条?这里需要使用聚合函数。
select A,count(B) as 数量 from table group by A;
这样的结果就是:
A 数量
1 3
2、where
where子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据,条件中不能包含聚合函数,使用where条件显示特定的行。
3、having
having子句的作用是筛选满足条件的组,即在分组之后过滤数据,条件中经常包含聚合函数,使用having条件显示特定的组,也可以使用多个分组标准进行分组。
having子句被限制于已经在select语句中定义的列和聚合表达式上。通常,你需要通过在having子句中重复聚合函数表达式来引用聚合值,就如你在select语句中做的那样。
☆:having子句和where有相似之处:都是设定条件的语句。
但是二者也有区别:
在查询过程中聚合语句(sum,min,max,avg,count)要比having子句优先执行。而where子句在查询过程中执行优先级别优先于聚合语句。
简单来说:
where子句:select sum(num) as rmb from order where id > 10; //只有先查询出id大于10的记录才能进行聚合语句
having子句:select reportsto as manager,count(*) as reports from employees group by reportsto having count(*) > 4; //having子句查询过程执行优先级别低于聚合语句。
换句话说:
把上面的having换成where则会出错。统计分组数据时用到聚合语句。对分组数据再次判断时要用having。如果不用这些关系就不存在使用having。直接使用where就行了。
having就是用来弥补where在分组数据判断时的不足。因为where执行优先级别要快于聚合函数。
4、聚合函数
这些函数(SUM,COUNT,MAX,AVG等)和其他函数的根本区别就是它们一般作用在多条记录上。
select sum(population) from tablename;
这里的sum作用在所有返回记录的population字段上,结果就是该查询只返回一个结果,即所有国家的总人口数。
通过使用group by子句,可以让sum和count这些函数对属于一组的数据起作用。
当你指定group by region时,属于同一个region的一组数据将只能返回一行值。也就是说,表中所有除region外的字段,只能通过sum,count等聚合函数运算后返回一个值
having子句可以让我们筛选成组后的各组数据。
having子句在聚合后对组记录进行筛选,而where子句在聚合前先筛选记录,也就是说作用在group by 子句和having子句前。
例子:
a:显示每个地区的总人口数和总面积
select region, sum(population), sum(area)
from bbc
group by region;
这里先以region把返回记录分成多个组,这就是group by的字面含义。分组完成后,用聚合函数对每组中的不同字段(一条或多条记录)进行运算。
b:显示每个地区的总人口数和总面积,仅显示那些面积超过1000000的地区
select region, sum(population), sum(area)
from bbc
group by region
having sum(area) > 1000000;
在这里,我们不能使用where来筛选超过1000000的地区,因为表中不存在这样的一条记录。相反,having子句可以让我们筛选成组后的各组数据。