一、数据的定义与类型:
1.数据的定义
数据是我们进行数据分析工作的对象,在日常的数据分析工作中,将数据进行正确的类型区分,是进行有效数据分析的关键。
2.数据的类型:
数据分析当中,通常将数据类型分为:数值型、类别型、有序型、噪声数据。
【数值型】
可以用数字表示的数据类型,比如我们经常使用的长度、高度、分数等等。这类数据的表现形式就是类似10.1、2.7、95这样的数字形态。
对于数值型数据,我们通常可以用一些数学方法进行统计和分析,比如求极值、均值、标准差、变量间的相关性等。
【类别型】
表示类别特征的数据,称为类别型数据,比如性别、商品品牌等等。这类数据在形式上一般以字符串表示,比如"男"、"女"等。
【有序型】
数据的不同取值之间存在一定的先后高低顺序的差别,使用有限的标识进行划分的,称为有序型数据。比如将考试成绩划分成的"A"、“B”、“C"等级,将空气质量分为"优”、“良”、"污染"等等。
对于有序型数据,可以使用字符串、或者有限的数字表示。
相比类别型数据,有序型数据最大的特点是,不同的取值之间是有大小关系的。
比如,成绩A要高于B;空气等级优要好于良。而对于类别型数据中比如性别,就不会有男好于女或者女好于男的顺序关系。
类别型以及有序型数据都是非数值型数据,对于它们的分析,通常会在数据分析过程中使用统计分布、直方图等方法进行分析。
【噪声数据】
严格来说,噪声数据并不属于一种独立的数据类型,这里单独列出,是为了强调它在实际业务场景中会高概率出现,是我们不能忽视也必须处理的一类数据。
数据分析所使用的数据,往往来源于不同的渠道,可能是通过调查问卷获取、或者业务服务器上收集和采集得到、或者业务人员手动填写的表格等等。
渠道收集功能的故障、收集过程中的疏忽意外等,都可能会导致某些数据的缺失,或者数据中出现重复、无效值等问题。这类“有问题”的数据,被称为噪声数据。
如果希望保证数据分析工作的结果是可靠的,我们就需要一份无误、干净的数据作为处理的对象。
因此,对噪声数据的处理也至关重要。
在实际工作中,一般借助统计分析等方法,识别出与大部分数据分布特性相差很大的数据,经过仔细确认之后,进行数据清洗工作,以去除数据中的噪声。
二、数据分析的基本概念。
数据分析,指的是用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论的过程。
具有使用统计学的方式,来分析数据的特点。
简单的如求一批数据的平均值、最大最小值等,稍微复杂一些的比如获取数据的分布特征、变化趋势等。
数据分析所处理的对象,就是是大量数据,也就是上面我们说的各种类型的数据。
这就需要我们借助工具完成繁琐的计算任务,Python便是一个非常理想的工具选择。
三、数据分析的过程步骤
严格意义上讲,数据分析只是一个笼统的概念,要完成数据分析其实需要很多步骤,来组成一个完整的过程。
从一开始的明确需求到最后的结果呈现,我们可以将整个数据分析过程分为如下五个步骤:
每个步骤所做工作不同,但它们前后衔接,共同完成数据分析任务。
第一步,明确目的,明确将要进行的数据分析任务要解决什么问题,从哪些角度分析问题,采用哪些方法和分析指标。
比如,我们要确认广告投放的合适区域时,数据分析的目的就是统计目标用户的地域分布。
第二步,数据获取。如果没有现成的数据,还需用到爬虫技术来获取数据。
为了解决问题而想方设法进行数据的采集,常用的方法多种多样,可以通过调查问卷获取,也可以从数据库中获取,或者抓取客户在使用我们的服务以及各种社交工具过程中产生的数据。这个过程会产生出原始的数据文件,供后续步骤使用。
第三步,数据清洗。
把上一步获取到的数据中可能存在的数据错误、数据缺损处理掉,生成有一定结构、干净的数据。比如我们在进行用户地域统计时,有些数据项中没有填写用户所处的地区,这样的数据项就需要在这个步骤中去掉。数据分析工作只有基于干净的数据展开,才能获得正确的结果。
第四步,数据分析,借助工具,对数据进行统计分析工作。
比如,分组、聚合等。这是数据分析的主要处理步骤,最终会依据数据分析任务的需求,从之前获取的干净数据计算出结果数据。
第五步,结果呈现,将分析结果以图表、分析报告等直观的形式进行展示,方便业务人员直观快速的理解分析结果。
这一步也被称为数据可视化的操作,属于数据分析的一小分支,进行数据分析结果的呈现,方便做决策方案。
四、数据分析应具备的知识范畴。
(1)计算机知识
计算机是我们进行数据分析所要使用的基本工具,要更好的操作这个工具,我们需要掌握一门可以很方便的处理数据的计算机编程语言,比如Python。
(2)简单的数学和统计知识
对于数学和统计知识的掌握程度,决定了我们进行数据分析可以达到的深度。
当我们只了解数据的均值、最大最小值的时候,可以做些最简单的数据分析工作,当了解了正态分布、二项分布等等更复杂的概念之后,可以做的分析工作就更多更深入了。
除此之外,对业务和行业的理解也是数据分析工作所需要具备的基本知识。
比方说,进行互联网教育行业的数据分析时,对于到课率、完课率等行业知识的基本了解,是能获得有指导意义的结果的前提。
五。数据分析在实际中的应用。
可以用来做数据处理。
用来做数据可视化。
可以做疫情统计:爬取数据后,实时数据处理与数据可视化相结合。
再举一个例子,当一个商家希望为自己的商品投放互联网广告的时候,通过对历史销售数据的分析,他能够得到类似如下的用户分布图:
????????????依据这样的用户所在城市占比的分析结果,可以建立更有效的广告推广策略,以最少的投入,把广告更准确的推送到最有可能购买自己商品的用户面前。
数据分析能适用的行业和岗位太多太多了,财务、运营、销售、人事、行政、产品岗等等职业,都有数据分析来进行高效工作的身影!
即便是非管理层,最最普通的员工,用数据分析来做日报、周报、月报,例会上真的是轻松不少。