一. 数据分析的步骤
数据分析的步骤分为5步:数据清洗,构建模型,数据可视化
一. 理解数据 整体上理解数据集中的的数据字段意义,需要理解数据集的数据类型:文本型,数值型,逻辑性,错误值
二. 数据清洗 数据清洗也叫做数据预处理,一般进行数据清洗需要通过通过7个步骤进行处理:选择子集,列名重命名,删除重复值,缺失值处理,一致化处理,数据排序处理,异常值处理
2.1 选择子集
即选择需要进行分析的数据集中的数据列,为避免干扰可对其他不参与分析的数列进行隐藏处理
2.2 列名重名命
若数据集中出现同样列名称,或含义相同的两个列名,为避免干扰分析结果则需要针对某一个数据列的列名进行重命名
2.3 删除重复值
删除数据中的重复数据值,注意只会保留重复数据的第一条数据
2.4 缺失值处理
原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格。在数据分析时会影响结果,需要将缺失的数据值进行补全。可人工手动一次性补全缺失值:首先通过定位条件查找的方式,查找到缺失值。然后Ctrl选中所有缺失值,在公式输入框输入对应内容,使用Ctrl+Enter可补全选中的缺失值
2.5 一致化处理
数据集中会存在某一个数据列的数据至标准不一致或命名规则不一致的情况,可以使用分列功能将不一致的数据列中的数据值进行拆分
2.6 数据值函数应用
对列数据集中的数据进行筛选排序,升序,降序排列等函数的应用
LEN(字符串所在单元格的位置),获取整个字符串的长度,例如LEN(A2)=6
Find(要查找的字符串,字符串所在单元格的位置),例如查找"k"的位置,通过Find("k",A2)=2,即k在字符串中的位置是2
Left/Right(字符串所在单元格位置,从左/右开始到某个位置进行字符串截取),例如截取最低薪水"7",通过与函数Find的结合应用,Left(A2,Find("k",A2)-1)=7
Mid(字符串所在单元格位置,起始位置,截取长度),例如截取最高薪水"9",通过MID(A2,FIND("-",A2)+1,LEN(A2)-FIND("-",A2)-1)=9
2.7 异常值处理
即数据处理模式,Split(数据分组)-Apply(函数应用)-Combine(组合结果)。数据的组合结果,对清洗后的数据进行分析,应用到数据透视表。需要了解的函数的应用公式Average,Sun,Max,Min,Date,If,Or,Countif
例如要用数据透视表统计数据集中数据分析岗位的相关的数量:选择插入——>数据透视表生成新的工作表,选择职位名称拖动到行和值的区间,生成职位的数据透视表,再通过筛选排序汇总出职位数量最高的职位名称“数据分析师” 通过函数IF,COUNT,FIND 对职位名称进行数据处理,清洗出符合数据分析师岗位的数据集 运用函数公式IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否"),筛选出数据集中为"是"的数据分析师相关职位数据集 三. 构建模型 还是以招聘数据为例,提出哪个城市的找到数据分析的工作机会比较大的问题?创建城市的数据透视表,筛选出不同城市对数据分析职位的工作年限要求排名,通过右键选择列汇总百分比,数据按照百分比的形式进行展示。 使用Excel的分析工具库,生成平均薪水的描述统计,且针对行(城市),值(平均薪水)建立数据透视表,获得不同城市的平均薪水数据指标 三. 日期数据字段处理 日期数据的处理:先通过"分列"以及"设置单元格格式"的对日期数据进行一致化处理,
之后生成数据透视图,通过对透视图的日期数据右键进行组合操作,可统计出年,月,周,日数据