数据分析------统计学知识点(一)

时间:2024-05-31 11:39:41
1.在统计学中,均值分类有哪些?

算术均值:平均值,所有数值加总后除以数值的个数

几何均值:所有数值相乘后,再取其n次方根,n是数值的个数

调和均值:是数值倒数的算术均值的倒数

加权均值:每个数值有不同的权重,将每个数值乘以其权重,加总后除以权重的总和

2.什么时候平均值才存在价值?

平均值反映了一组数据的中心位置,它存在价值的情况通常是:

数据分布相对均匀,没有极端的离群值。

当我们需要比较不同数据集的总体趋势时,分析的目的是了解整体情况,而不是个体差异。

3.如何才能反映真实情况?

为了更准确地反映真实情况,我们需要:

考虑数据的分布,是否有离群值或偏斜。

使用其他统计量,如中位数、众数、方差和标准差等,来补充均值的信息。

在适当的情况下使用加权均值,确保每个数据点的贡献与其重要性相称。

分析不同的子组的均值,而不是只看整体均值。

4.从均值到辛普森悖论

辛普森悖论是一个统计现象,说明当数据从分组中合并时,会产生误导性的统计结果。即使在每一个子组中一种趋势很明显,但合并这些子组后,趋势就可能完全反转。

例如:A、B两医院,分别治疗相同疾病,A治疗100名轻症患者,成功率90%;A治疗10名重症患者,成功率20%;B治疗10名轻症患者,成功率100%;B治疗100名重症患者,成功率30%。

①不考虑患者病情严重程度,单纯计算平均成功率:

A总成功率:(100*0.9+10*0.2)/(100+10)=83.0%

B总成功率:(10*1+100*0.3)/(100+10)=36%   A比B优秀

②考虑患者病情严重程度时,B对每种类型患者都有更高的成功率。

5.辛普森悖论的启示

总是要注意数据背后的具体情况,不要只基于表面的统计结果做决定。分析数据时要细致,特别是在处理不同群体或类别的数据时,要考虑它们的组合效应。在做出重要的数据驱动决策时,应从多个角度审视数据,使用多种统计方法,以避免出现误导性的结论。

6.互联网企业在数据分析过程中常见的辛普森悖论场景

①用户活跃度分析

假设一个互联网公司在分析两个不同的功能模块对用户活跃度的影响。单独看一个模块时,功能A似乎比B更能提高用户活跃度。但当两个模块的用户数据合并起来分析时,结果可能反映出B整体上对提高用户活跃度更有效。这可能是因为A的用户本来就活跃,而不是A本身更优秀。

②在线广告效果评估

在线广告投放可能在不同的用户群体中表现出不同的转化率。如针对年轻用户的广告A和针对老年用户的广告B,在各自目标群体取得了高转化率,但若年轻用户群体本身的转化率就高于老年用户群体,合并两个广告的数据后可能会出现广告B的整体转化率反而更高的辛普森悖论。

③A/B测试

互联网公司常常使用A/B测试来决定产品变更是否有效。若在A/B

测试中,每个子群体(例如:按地区、设备类型或用户行为划分)都显示新版本优于旧版本,但是当所有子群体的数据合并时,总体结果却显示旧版本表现更好,这是辛普森悖论的一个经典案例。

④用户评分与推荐系统

在电子商务平台,不同的产品的评分可能因为评分人群的不同而出现偏差。例如,一个产品在男性用户中评分很高,在女性用户中评分很低。若男性用户是主要的评分群体,该产品的总体评分可能会很高,这可能误导推荐系统将该产品推荐给不太喜欢它的女性用户。

⑤客户满意度调查

若一个互联网服务公司对不同服务进行满意度调查,可能发现某些具体服务领域客户满意度很高,但当所有服务数据汇总时,整体满意度却很低,这可能是因为那些服务领域的用户基数较小,而大多数用户实际上使用的是其他服务。

7.如何识别面试问题是否为辛普森悖论场景?

辛普森悖论的出现提醒数据分析师在分析数据时,要考虑到不同子群体的影响,以及他们在整体数据中的权重。在解释数据和做出基于数据的决策时,必须仔细考虑数据的分层和分组效应,避免错误的推断。

正确做法是:深入了解数据的上下文,分层分析,以及使用适当的统计方法来减少误导性结论的风险。

8.什么是大数定律?

例如:一枚公平的硬币正面朝上和反面朝上的概率都是50%。若你只抛一次,结果可能是正,也可能是反,无法预测。但若你抛100次,200次,甚至更多次,你会发现正面和反面各自出现的次数越来越接近一半。

大数定律的直观展现:

随着试验次数的增加,样本均值(在上例中即是正面出现的比例)越来越接近总体均值(50%)

数据分析中,大数定律告诉我们,只要样本量足够大,就可以通过样本来估计整个群体的特性。

(减少偶然性,更准确了解总体特性)

虽然正反面概率各位50%,但是抛10次不一定正反各5次。

——>抛的次数不够多,我们看到的结果都是各种偶然的极端情况。

9.什么是小数定律?

例如:一朋友第一次打篮球就投了三分球,你立刻得出结论:他是篮球高手——>掉入小数陷阱,结论仅基于极有限的信息——只有一次投篮的结果。

小数定律:指当数据量太小,无法代表整体时,我们可能会得出错误的结论。小样本可能会受到极端值或偶然性的强烈影响,导致我们对情况的误解。

数据分析中,避免小数陷阱意味着不能仅根据少量数据做出决策,而应该寻求更多的证据。

10.互联网企业中常见的这两类场景

①A/B测试

互联网公司经常进行A/B测试来改进网站或应用,当测试新功能时,公司流量分成两部分,一部分用户看到旧版本(A组),另外一部分看到新版本(B组)。通过比较两组的表现,数据分析师可了解哪个版本更好。

  • 若测试的用户数量足够大,大数定律能保证结果可靠性
  • 若样本太小,可能会出现小数陷阱,导致错误决策。

②用户反馈

用户评论与反馈是互联网公司的重要信息来源。但仅有极端满意或极不满意的用户才会留下评论,这可能导致数据偏差。若公司只关注这些小数陷阱的评论,而不是通过调查or其他方式获取大量的用户意见,则可能会对用户满意度有一个不准确评估。

③产品销量分析

若一新产品在上市后的第一个月销量爆棚,若企业立即决定大量生产,则他们可能未考虑到这可能是因为早期的宣传造成的短期效应,这种对初期小量数据的过度依赖,即是小数陷阱的体现。在未有足够数据支持之前,做出重大决策可能会造成资源浪费或其他问题。

④用户行为分析

互联网公司通过分析用户的在线行为来改善服务和推荐算法,若分析数据量不够大,则无法准确捕捉用户的真实偏好。此时,大数定律的缺失会使得算法优化基于不准确的假设,从而降低用户满意度。

⑤产品迭代

产品经理通常根据数据来迭代产品。若他们基于的是短期内收集到的少量数据,那么可能无法真实反应市场的需求,从而陷入小数陷阱。相反,若等待收集到足够的用户数据,应用大数定律的原则,则得出的结论将更加可靠。

墨菲定律:任何可能出错的事情,最终都会出错

11.期望的定义与数学原理

期望(Expectation):表示随机变量的平均值,是对随机事件结果的预期

E(X)=x1p1+x2p2+…+xnpn

X随机变量,xi是X的第i个可能取值,pi是X取xi的概率,n是X所有可能取数个数

例如:骰子6个面,每个面朝上的概率是1/6,若将骰子的点数看作一随机变量X,则E(X)=1*(1/6)+2*(1/6)+3*(1/6)+4*(1/6)+5*(1/6)+6*(1/6)=3.5

若我们多次掷骰子,所有结果的平均值都会无限接近3.5

12.期望与平均值的关系

期望是一种理论上的平均,是基于概率分布计算出来的

平均值是实际结果的算术平均。当随机事件重复进行的次数足够多时,平均值会收敛到期望;但在有限的尝试中,平均值会偏离期望

期望是事前的准备,平均值是事后的统计。

如例11,掷骰子不可能3.5点,在一次or几次掷骰子的结果中,平均点数可能是1,2,4,5,只有次数不断增加,最终所有结果的平均值才会接近3.5.

13.如何避免墨菲定律

①降低事情出错的概率:以等红灯老是撞上红灯为例,若我们提前10分钟,则遇到多个红灯导致迟到的概率就会降低。

②改变对结果的预期:若每次出门都期望一路畅通,则碰到红灯时挫败感会很强,若将可能遇到几个红灯纳入预期中,实际遇到红灯,心理落差就不会那么大。

③从长期来看,趋势会向期望靠拢,要学会从长远角度看问题,单次墨菲定律会让人沮丧,但只要判断是正确的,结果就会向好的方向发展。

14.期望在互联网的应用

①A/B测试中,产品经理会将用户随机分成两组,分别展示不同的方案,并观察用户的反应。若新方案的转化率期望比对照组高出2%,且这个差异有统计学意义,则可能认为新方案是有效的。

②广告投放中,广告主关系的核心指标是ROI投资回报率,若一广告点击率期望5%,平均点击单价2元,则广告主目标每花一元获得至少2元的收益,则该广告就是值得投放的,若实际点击率远低于5%,则需要优化广告的创意和投放策略。

③算法工程师在设计算法时,也会评估算法的期望复杂度。对于一个排序算法,若输入数据的规模是n,算法的期望时间复杂度是O(nlogn),这这个算法是可以接受的。若一个算法的期望复杂度是O(n^2),在数据规模较大时,就可能导致性能问题。