用Excel进行数据分析练习(一)
跟随秦路老师的课程,用Excel进行数据分析,主要目的是回顾关于Excel的一些基本操作
问题描述
数据:一份餐食数据
主要问题描述:
- 全国点评数最高的饭店是哪家?
- 哪个城市的饭店人均口味最好?
- 哪个类型的餐饮评价最好?
- 类型为川菜的店里,有多少个带‘辣’字,有多少个带‘麻’字?
- 口味、环境、服务,三个评价都在8.0以上的饭店有几家?它们在哪个城市的占比最多?
- 上海地区中,各个类型饭店服务前五名?
- 没有评价的饭店有几家?
- 将人均价格划分为0~50,50~100,100~150,150~200,200+这几个档次,各个城市分别有几家?其中占比又是多少?
- 将点评、人均、口味、环境、服务这几个指标加工出一个综合评价系数,并且计算哪十家店是最好的
- 对日本料理,做一次描述性分析
过程
数据原始状况:
进行分析之前,先将原始数据复制一份,新建一个sheet。
1、全国点评数最高的饭店是哪家?
方法1:将点评列按降序排列,即可得到最大点评数店铺。(三宝粥铺(南京东路店)分店)
方法2:采用函数形式,使用组合函数【=INDEX(C:D,MATCH(MAX(D:D),D:D,0),1)】返回结果,其中MATCH(MAX(D:D),D:D,0)返回最大点评数对应的行数,INDEX()返回指定区域行列交叉单元格的值。
哪个城市的饭店人均口味最好?
直接采用数据透视表,列出平均口味值,对其进行降序排列。(不直接对透视表进行操作,ctrl+a全选表格,复制一份透视表)(ctrl+shift+↓全选带数据表格列)
哪个类型的餐饮评价最好?
依然是采用数据透视表就能完成
类型为川菜的店里,有多少个带‘辣’字,有多少个带‘麻’字?
分别利用FIND()函数查找出店名带“辣”、“麻”的字段位置,再利用筛选功能,筛选出类型为川菜,最后统计FIND()函数列字段大于0的单元格数量。
口味、环境、服务,三个评价都在8.0以上的饭店有几家?它们在哪个城市的占比最多?
利用筛选功能即可完成对评分的筛选;然后对城市进行复制粘贴,利用透视表完成占比计算。
上海地区中,各个类型饭店服务前五名?
1.先将地区为上海的筛选出来,单独复制粘贴为一张表;
2.对服务评分进行降序排列,再对类型进行降序排列,得到了按类型分类、评分降序的表;
3.利用【IF(B3=B2,I2+1,1)】函数,对各个店铺进行排名,最后就行筛选前5名,此方法缺陷则是对同评分不能很好的区分。
没有评价的饭店有几家?
利用筛选功能即可。
将人均价格划分为0~50,50~100,100~150,150~200,200+这几个档次,各个城市分别有几家?其中占比又是多少?
1.将所有人均/50得出的值单独成列,列名Level
2.将Level列用INT()函数【此函数表示向下取整,例:1.9函数结果为1】向下取整
3.利用筛选、替换将所有大于4的值替换为4
4.利用透视表将城市、Level进行透视,算出数量以及占比
将点评、人均、口味、环境、服务这几个指标加工出一个综合评价系数,并且计算哪十家店是最好的
1.首先进行脏数据处理,将空白值、异常值筛选掉;
2.由题意,人均为降权,点评、口味、环境、服务为正比;
3.将口味、环境、服务求平均数,可适当进行加权处理;
4.由于点评、人均数值较大,对其进行LOG() 函数处理,底数根据情况选择;算出综合评价指数
5.对各个综合数利用【(int - MIN)/(MAX - MIN)】进行收敛。
6.将收敛后的列复制粘贴为数值,最后对表进行排序。(注:新增列与原表列不能有空白列,否则不能进行排序)
对日本料理,做一次描述性分析
1.筛选出日本料理,将表复制粘贴到新表;
2.利用数据分析功能进行系统性的描述分析。