在网上找了 别人扒下来的数据分析相关数据 以及处理后的数据,观察原始数据和处理后数据的区别。
观察两份数据 可以知道其数据筛选要求,以及可以自定义一些自己认为对分析有用的指标。
1.筛选出缺少缺失关键项的数据;
2.对薪水进行最高最低 及其平均值的计算;
3.从职位名称判断是否为数据分析岗位;
4.删除了公司ID (但是我认为有必要保留)
好,现在开始正式的清理!
1.先对原始数据进行备份
2.删除缺失项数据
利用自动筛选工具,将空白筛选,将筛选后的表格整体复制粘贴到新的表格,便于后续进行。
2.观察薪水的格式知道它是由-分开最大最小薪水值 也有多少以上薪水的格式
利用find函数查找出-所在位置
利用left函数读取从左到右的(-位置)-2的数
输出数据的长度 最高 = rigt(数据长度 -(-位置))
但是最高薪水有k 再次使用left函数
将无关数据项隐藏,检查除了空值其他数据正常,接下来处理空值;
利用筛选找出空值项 发现除了以上还有以下,统一用他的值代替最高最低。
平均值
筛选出是否有职位名称中是否有‘’数据“和”分析‘’两项都有有则 是 ,否则 否
再用筛选将空值 替代为否;
再次筛选 将不属于数据分析的数据删除 并复制新的数据;
最终得到2211个数据 ,给出的案例中有 2294 比我的多一些,但是在我检查给出的案例时发现他将类似于如下 也归于数据分析
不算复杂的数据清洗项,大概用了一个小时的时间完成,熟悉了之前的操作,接下来对所给数据进行一定的分析。