数据分析 假设检验

时间:2024-03-31 11:35:42

思路:根据经验或者其他方面的信息来假设一个总体用户可能的值,再根据样本情况,使用某种工具来验证这个假设是否正确

如:在一个app上,用户的平均消费3900,但是根据第三方数据公司提供的,对所有用户电商进行统计后,揭示总体的用户平均消费是在4100元

步骤:

a.设定我们的初始假设

初始假设:用户平均消费是4100元

验证结果:接受或拒绝这个假设

双尾检验:默认假设=,对应假设>或<,有两个拒绝默认假设的空间

单尾检验:默认假设>=,对应假设<,有一个拒绝默认假设的空间

b.计算检验统计量

Z评分:用户数60,平均花费3900,消费标准差1200,Z=(3900-4100)/(1200/数据分析 假设检验=-1.29(这个得出的Z评分?)

c.评估假设所用的临界值

临界值的2个因素:假设类型(双尾检验),显著性水平(对应某个犯错误的概率)

如临界值是考试的及格分数,显著水平是控制多少学生及格

  • 显著水平越低,考试难度越大,原假设难被否定
  • 显著水平越高,考试难度越低,原假设容易被否定

显著水平定义区间通常为0.01-0.1(显著性水平假设检验中的一个概念,是指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取α=0.05或α=0.01。这表明,当作出接受原假设的决定时,其正确的可能性(概率)为95%或99%

 

临界值:默认假设=4100,显著性水平0.05,双尾检验后,概率水平均分,0.05/2=0.025,然后查找表,通过0.025,找到第一列-1.9,第一行0.06,临界值为+-1.96

d.做出决策判断

  • 结论:Z=1.29
  • 临界值+-1.96
  • 结论:不拒绝,也就是用户的平均花费在4100

数据分析 假设检验

总结:

1.根据要验证的业务问题”用户消费的均值是否在4100元“建立默认假设

2.根据样本数据计算出Z评分

3.设定显著水平以及根据双尾/单尾检验,得到临界值

4.比较Z评分和临界值,并给出决策判断