一. 数据描述统计
看了一个纪录片 - The Joy Of Stats 《统计的乐趣》,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思考。描述统计学是对数据信息归纳为存在着大量数据,无任何意义且数据越多,信息很大的模糊数据集,经过分析处理进行简化,将一系列复杂的数据,减少为几个能起到关键数值的数据。归纳分析出能起到有描述作用的数值,又代表性的数值。 这样面对大量的数据的时候,可以通过几个代表性的数据,大概知道数据的整体情况。
对于互联网格式各样的产品来说,用户数据至关重要,无论是电商,短视频,出行还是其他互联网领域获取用户的本质还是获取用户数据信息。从用户数据信息了解用户属性,偏好等,以便更好的推出更好的产品来服务用户。
二. 数据描述统计的基本内容
描述统计分析的基本常用指标:平均值,四分位数(上界数值,上四分位数,中位数,下四分位数,下界数值),标准差,标准分。
平均值:指在一组数据中所有数据之和再除以数据的个数,但平均值真的能代表大量数据的实际情况吗?答案肯定是否定的,比如经常说的"平均工资"。当数据中存在异常数据时用平均值代表是不准确的,因为平均值存在误导性,平均值的缺点就是对异常数据不敏感。一组数据存在过大或过小的数据,就会对实际平均情况产生误导。
四分位数:指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。通过分割数据集得到的5个数值与“箱线图”应用,可以从整体上描述出数据的整体分布状况。四分位数还可以有效的识别数据中不正确的异常值,比如数据中非常大或非常小的数值。
中位数:将数据集以小到大的顺序进行排列,计算中间位置的数值:假设数据集中有N个数值,如果N为奇数则中位数位于中间的数值。若N为偶数,则中中位数就是中间两位数值的平均值。
什么是上界数值,上四分位数,中位数,下四分位数,下界数值(如下图所示),假设一个有17位数值的数据集
根据得到的四分位数的五个数值设计的箱线图可以了解到中位数离下四分位数更近,表明大部分数据集的值位于下界四分位数和中位数之间。当存在多个数据集的进行比较后,可以更直观的了解到数据集的整体情况
四分位数是如何识别出数据集中的可能的异常值,根据Tukey's teset方法计算一个最小估计值和一个最大估计值。若超过这两个数值范围的数值,可能就是异常值。
通用公式为Q1=下四分位数 ,Q2=中位数 Q3=上四分位数, k=1.5(中度异常),3(极度异常)最小估计值:Q1-k(Q3-Q1) ,最大估计值:Q3+k(Q3-Q1) ,k根据具体业务场景而定,通过计算公式即可数据集的中度异常范围,和极度异常范围。超过这两个范围的数值就有可能是异常值
四分位数的优点是:可以从整体上描述出数据集的分布状态,缺点是不能知晓数据集的波动有多大。
标准差:数据集在整体变化过程中偏离平均值的波动大小幅度。即标准差 = 波动大小 = 离散程度 = 变异性。标准差大小具体根据业务来断定好坏,例如“机械设计零件的标准差越小越好,股票标准差越大,代表风险越高”
标准差能表示数据整体的波动,但它有缺点:如果两个数据差别比较大,那么就无法比较。
比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。
如果用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。
标准分:表示某个数值距离平均值多少个标准差,可用正态分布概率图进行分析
三. 具体案例应用解读
下图是电商的某商品数据集
auction_id(购买行为编号):当前数据集可描述出用户购买商品时的用户路径,比如是通过PC端商城,手机App,或是小程序等其他路径找到当前商品,在通过何种支付方式微信 or 支付宝进行的支付。还可细分记录出用户在当前商品的页面中的所有行为,包括“评论,点赞,页面点击率”等等。通过将当前商品的购买行为数据集进行描述统计分析,可以更直观的了解到用户购买商品的整体行为情况。并通过数据优化迭代产品
cat_id(商品种类ID):收集每个用户对商品的购买情况,经过统计分析后可以整理出用户对某个特定商品的喜好程度,针对性分析出用户对哪些商品购买量大,哪些商品购买量低。为商家的供货方式提供有效的数据支持。
cat1(商品类别):针对每种特定商品进行类别分类,以商品的角度统计出商品数据集中所有商品的类别分类情况,在从用户角度结合auction_id(购买行为编号)统计出用户在购买商品时,对哪个类别的商品更感兴趣,哪个类别的商品销售量大
property(商品属性):当前属性可定义为商品的规格,例如“颜色,尺寸等”,结合cat_id(商品种类ID),cat1(商品类别)进行描述统计,分析出用户对某个特定商品的规格的偏好程度,业务上商家也对某个商品的规格的销售情况直观清除。
buy_mount(购买数量),day(购买时间):收集用户对某个商品在什么时间的购买的数量数据的展示。
数据集中的问题分析:通过数据描述统计的数据统计工具进行分析: 计算出数据集中的数据异常范围,可发现数据集中的数据异常值。
哪种商品类别的浏览频率高?各商品类别的浏览频数与商品的成单量情况
商品种类的浏览频率,用户喜欢购买哪种商品?喜欢的商品通过几次浏览进行购买操作,进一步可通过多用户购买数量判断该商品是否满足当前热销?通过某一时间段,分析哪种类别的商品出现大量用户集中,哪些商品种类购买量突出?
将用户分类为潜在用户、 核心用户、新用户,通过购买商品的数量和浏览的商品时间,判断哪些是潜在用户?哪些是核心用户?
对比商品种类,通过四分位数,分析购买的商品哪种次数最多?
商品数据集的描述统计:结合当前当前数据列表的所有数据,通过描述统计整理分析后,能在整体上分析出“用户在什么时间通过什么样的方式购买了什么类别的某个特定规格的商品的数量是多少”。这就是通过数据描述统计为商品或产品在实际应用场景中体现的价值。
微观上分析出用户对商品的整体购买情况,宏观上分析出商品的属性库存对商品销售额的影响。统计学的意义在于:统计已有的表征数据,发现不同因素数据的相关性和规律,然后利用这种相关性和规律来创造和推动社会的未来发展,或是影响干预并引导事物向理想的方向发展结果。统计学是人工智能的基础知识,同样也是投资领域的核心知识。