统计分析-学习笔记

1.方差（Variance）
- 意义：度量一个维度偏离其均值的程度
- 公式：
  - 1.总体均值：
  - 2.样本均值S（n-1为无偏估计）：
- SPSS操作：
  - “分析”→“描述统计”→“频率”→“统计”→选择“平均值”与“标准差”
2.数据无量纲化
- 数据归一化(Normalization，又称Min-Max Scaling)
  - 含义：当数据(x)按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到[0,1]之间
  - 图解：
  - 公式：
  - 特点：归一化之后的数据服从正态分布
- 数据的标准化(Standardization，又称Z-score normalization)
  - 含义：当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布（即标准正态分布）
    - 公式：
  - 文献参考：《社交网站中的自我表露与青少年生活满意度：一个有调节的中介模型》
  - SPSS操作：标准化（normalization）=“Z”转换
    - “分析”→“描述统计”→“描述”→“将标准化值另存为变量”
3.协方差(Covariance）
- 意义：度量各个维度偏离其均值的程度。
- 公式：Cov(X,Y)=E((X-E(X))(Y-E(Y))
- 方向性：
  - 协方差的值如果为正值，则说明两者是正相关的
  - 结果为负值就说明负相关的
  - 如果为0，也是就是统计上说的“相互独立”。E[XY]=E[X]E[Y]
4.相关系数（Correlation）
- 意义：就是用X、Y的协方差除以X的标准差和Y的标准差（标准化）
- 公式：
  - 转存失败重新上传取消
- 论文中表现形式
  - p＜0.05 *
  - p＜0.01 **
  - p＜0.001 ***
5.内部一致性信度Cronbach's α
- 模型：
- 意义：多次测量的稳定性
- 种类：
  - 重测信度 test-retest reliability
  - 复本信度 alternative-form reliability
  - 分半信度 split-half reliability ——内部一致性信度
  - 克隆巴赫阿尔法系数 Cronbach's α——内部一致性信度
    - α公式：α=[所有协方差/（所有协方差+所有方差）]×K/(K-1)
      - 注：K为题项数量，为某一题目（变量）的方差，为测验总分的变异数（矩阵内所有数字之和）
    - α的特点:
      - ①同一个维度内的题目（变量），两两的正相关越大，则α越大。
      - ②根据公式，题目数量越多，α越大。
      - ③α可能会是负的（不符合1的情况下，或者有反向题）
      - ④注意反向题，要先反向再做α
    - 多维量表的α报告：
      - ①报告分量表α
      - ②基本上不报告总量表α
        
        题项越多，α自动虚高
        
        可能存在负相关的子维度，α会变负数
      - ③如果需要把多个子量表加总，需要报告同质性系数（homogeneity coefficient）
      - ④理论流程 vs 经验流程
    - 论文参考
      - 多维量表加总问题：《多维测验分数的报告与解释：基于双因子模型的视角》
      - α的介绍：《α系数：晃而不倒的信度标杆》、《测验信度估计：从α系数到内部一致性信度》
- 过程：
  - 重测信度（时间变化）→复本信度（难以找到相同测验）→分半信度（不好分，数值不一）→Cronbach's α（勉强使用）
- SPSS操作
  - “分析”→“标度”→“可靠性分析”→“统计”→“相关性”→“删除项后的标度”
  - 输出结果的判断标准:
    - ①题项之间的两两相关系数都要超过0.3
    - ②修正后的项与总计相关性（题总相关，Corrected Item-Total Correlation，CITC）＞0.5
    - ③探索性研究中（量表不太成熟），α＞0.6；成熟量表中，α＞0.7。
    - 来源：《Multivariate data analysis_7th_修订版》（2014），p123
  - α分析时的相关问题
    - ①α未达到0.7，根据某些数据分析原则，予以删除
      - 文献：《社区居民旅游公平感知与旅游参与、旅游收益的结构关系——以崂山风景区为例》
    - ②实际上删除了，但是论文中没体现
    - ③实际上不达标，论文中也展示出来
      - 文献：《同伴侵害和网络欺负：一个有调节的中介模型》
    - ④有可能不达标，然后四舍五入的
      - 来源：《性客体化经历、妒忌对女性客体化他人的影响：有调节的中介模型》
    - ⑤找了点借口删题的
      - 来源：《公务员工作投入与心理幸福感的关系：有中介的调节模型》
    - ⑥由于反向题导致的α系数不佳
      - 经典案例：《Rosenberg（1965）自尊量表中文版的美中不足》
        
        转存失败重新上传取消
      - 参考：《项目表述效应的统计控制：以中文版生活定向测验为例》
    - ***删样本、改数据
      - William J. Broad 的《背叛真理的人们》
      - Diederik Stapel 的《Ontsporing》
6.组成（组合、合成）信度 Composite Reliability，CR
- 载荷因子(Factor loading)：因子载荷 aij 的统计意义就是第i个变量与第 j 个公共因子的相关系数即表示 Xi 依赖 Fj 的份量（比重）
- 多元相关平方（Square Multiple Correlations）：标准化载荷因子的平方
- 公式：
- 合成信度也是信度的一种，常见于结构方程模型中的验证性因子分析（Confirmatory Factor Analysis，CFA）部分
- 平均方差萃取量（Average Variance Element）
- 案例：
  - 不含置信区间（Confidence Intervals，CI）：《戒毒人员戒毒动机对复吸倾向的影响：有调节的中介作用》
  - 含置信区间：
    - 《手机成瘾与大学生拖延行为的关系：有调节的中介效应分析》
    - 国内论文参考：《用SPSS软件计算单维测验的合成信度》
- 前提条件：使用SPSS进行探索性因子分析（Exploratory Factor Analysis，EFA）
  - ①KMO＞0.7
  - ②Bartlett球形检验结果p<0.01
  - ③题目的因子负荷不能太低（因子载荷绝对值在0.3或者0.4以上）
    - 《Multivariate data analysis_7th_修订版》，p115
      - 转存失败重新上传取消
- 合成信度置信区间的计算方法
  - Mplus语法参考论文：《用Delta法估计多维测验合成信度的置信区间》
  - SPSS中的具体操作
    - 分析”→“降维”→“因子” →“描述”→“KMO和巴特丽特球形度检验” →“提取”→“要提取的因子数：1” →“确定”
    - 达标之后，打开我制作的Excel工具进行合成信度的计算
      - 注：正常来说，合成信度的值会比Cronbach’s α高一点点，有时候差异在小数点后好几位，看不出来
7.共同方法偏差 Common Method Bias，CMB
- 共同方法变异common method variance ≈ 共同方法偏差common method bias ≈ 系统误差
- 论文参考：《共同方法变异是“致命瘟疫”吗——论争、新知与应对》
  - 《共同方法变异是“致命瘟疫”吗——论争、新知与应对》
  - 检验方法：《共同方法偏差的统计检验与控制方法》
- SPSS中的判断标准：使用SPSS进行探索性因子分析（EFA），并满足
  - ①特征值大于1的主成分超过1个（最少两个）
  - ②首个主成分的方差解释率低于40%
- SPSS操作
  - “分析”→“降维”→“因子”→主要维度的所有题项全部置入
- SPSS中使用EFA进行CMB检验的特点：
  - ①如用的是长量表，动不动一个维度十几道道题目的这种，那么，一般都能通过SPSS的CMB检验
  - ②如用的是一个维度三五道题目的量表，那适用于潜变量建模，做结构方程模型，这种量表，在SPSS中检验，容易不达标，我们需要用另外的检验方法，也需要用另外的软件
- 事后检验 vs 事前准备
  - 参考文献：《Accounting for common method variance in cross-sectional research designs》
  - 具体做法：
    - ①寻找标识/标记变量（marker variable）
    - ②加入问卷，一同测量
    - ③与主要维度不相关，或者相关极小
    - ④如果相关，可以作为控制变量（controlled variable）加到分析中
  - 论文案例
    - 《Phubbed and Alone：PhoneSnubbing，Social Exclusion，and Attachment to Social Media》
    - 《团队中的关系、迎合与职业成功——基于戏剧理论的解释框架》
8.T检验
- 分类：
  - 模型
  - （1）①+②：单样本t检验（One-Samples T Test）→一批样本和一个固定的数值，其他数据和①比较也是
    - Python：
      - in:print(stats.ttest_1samp(x,0))
      - out:Ttest_1sampResult(statistic=0.5532263041157256, pvalue=0.5802106551705768)
  - （2）②+③：独立样本t检验（Independent-Sample T Test）→ 随意的两批人，④+⑤也是独立样本t检验
    - 假设前提
      - ①李克特尺度的量表默认为连续数据量表
      - ②问卷调查中一般用人口学变量作为独立样本 t 检验的分组
      - ③问卷调查中，做独立样本 t 检验的基本都符合观测值独立→ 夫妻配对数据应该使用配对样本 t 检验
      - ④问卷数据不容易出现异常值
      - ⑤问卷数据大部分情况下都近似于正态
      - ⑥符合方差齐性与否都能做独立样本t检验
      - ⑦人数不能太少，参考方差分析标准，（组）最多人数/（组）最少人数＜4（暂时参考此标准）
        
        文献：《Medical Statistics：A Guide to SPSS, Data Analysis and Critical Appraisal》（2014），p114
      - python
        
        in:print(stats.ttest_ind(x,y))
        
        out:Ttest_indResult(statistic=-0.7298798952956885, pvalue=0.4655342447989942)
      - SPSS操作
        
        “分析”→“比较平均值”→“独立样本T检验”→选定分组变量后点击“定义组”，并设定所使用的组
        
        注：检验变量=我们想要研究的连续变量；分组变量=人群划分的依据（二分类变量）
      - 判断流程
        
        ①查看方差齐性检验结果，根据结果选择看第一行还是第二行的t检验结果
        
        ②查看 t 检验结果，是否存在显著差异
        
        ③如果存在显著差异，这种差异明显不，差异有多大
        
        ④也可以查看置信区间是否包含0
        
        注1：除非两组的方差差异过大或者处在显著边缘（0.01＜p＜0.1），否则方差齐与方差不齐的结果不会有太大差异
        
        注2：95%置信区间（CI）=[两组差值 - 1.96*标准误SE，两组差值 + 1.96*标准误SE]
      - 独立样本t 检验的报告
        
        文献：《状态焦虑对时距知觉的影响：认知评价和注意偏向有调节的中介作用》
      - 独立样本 t 检验的统计功效与效果量
        
        统计功效/统计效力/power（statistical power）= 1 - β = 拒绝原假设后，接受正确的备择假设的概率
        
        参考：《Statistical Power Analysis：A Simple and General Model for Traditional and Modern HypothesisTests》（2014），p22-23
        
        底线：power＞0.5
        
        理想：power＞0.8
      - 效果量/效应量（effect size）：比较两个组均值差异大小的指标
        
        参考：《Medical Statistics：A Guide to SPSS, Data Analysis and Critical Appraisal》（2014），p56
      - 效果量和统计功效方面的文献
        
        《平均数差异显著性检验统计检验力和效果大小的估计原理与方法》
        
        《方差分析的统计检验力和效果大小的常用方法比较》
      - G*power操作流程
        
        ①确定分析类型 → t 检验
        
        ②选择具体的统计类型 → 独立样本t检验
        
        ③选择计算何种统计量 → 事后分析，选择Post hoc
        
        ④选择单尾检验还是双尾检验 → 双尾检验，选择Two
        
        ⑤进入Determine → 填入两组均值与标准差 → 点击Calculate，计算效果量
        
        ⑥点击Calculate and transfer to main window
        
        ⑦填入其他统计量，α、样本量等 →点击 Calculate计算出结果
        
        图示：
        
        期刊论文参考：《怀旧与亲社会行为的关系：一个有中介的调节模型》
  - （3）②+④：配对样本t检验（Paired-Sample T Test）→ 一一配对的数据，③+⑤也是配对样本t检验
    - python
      - in:print(stats.ttest_rel(x,y)) ##即related变量检验
      - out：Ttest_relResult(statistic=-2.242857603526988, pvalue=0.02508644157970355)
9.方差分析（Analysis of Variance，ANOVA）（方差分析＞ t 检验）
- t 检验局限性：每次只能确定两组是否存在差异： t 检验的假设：A=B
- 方差分析：可以同时比较多个组：方差分析的假设：A=B=C=D=……
- 模型:
- 分类：
  - （1）①+⑤：单因素方差分析（One-Way Analysis of Variance，One-Way ANOVA）
  - （2）①+⑤+⑦+⑨：单因素重复测量方差分析（One-Wayrepeated measures ANOVA）
  - （3）①+②+⑤：两因素方差分析（Two-Way ANOVA）
    - 还可以四因素、五因素、六因素，统称为多因素方差分析（Multi-way ANOVA）
  - （4）①+②+⑤+⑦+⑨：两因素重复测量方差分析（Two-Way Repeated MeasuresANOVA）
  - （5）①+④+⑤：协方差分析（Analysis of Covariance，ANCOVA）
    - 为啥①+②+⑤叫做两因素方差分析，把②换成④，就成了协方差分析呢？②是影响因素，④也是影响因素啊！
    - 协变量（covariate）也是自变量的一种
  - （6）①+⑤+⑥：多元方差分析（Multivariate ANOVA，MANOVA）
    - 多因素方差分析：Multi-way
    - 多元方差分析：Multivariate
- 变量间关系
  - 自变量 Independent Variable，IV
  - 因变量 Dependent Variable，DV
  - 协变量 Covariate（偏统计）≈控制变量ControlledVariable（范围广）
  - ①自变量与因变量
  - ②自变量与控制变量
    - 《实验心理学》（郭秀艳）：额外变量=控制变量≠无关变量
  - ③协变量与控制变量
    - 控制变量＞协变量
    - 在数据分析中，控制变量=协变量
    - 控制变量的选择逻辑
- 单因素方差分析的操作与效果量、统计功效
  - SPSS操作
    - “分析”→“比较平均值”→“单因素ANOVA检验”→“对比”：图基、雪费、盖姆斯-豪厄尔、显著性0.05→“选项”：描述、方差齐次性检验
  - 期刊论文：《青少年早期社交回避与同伴关系问题：有调节的中介模型》
  - 统计功效与效果量
    - ①使用Gpower计算
    - ②使用SPSS估算
      - 操作：“分析”→“一般线性模型”→“单变量”→“选项”：效应量估算、实测幂（统计功效）
      - SPSS中的效果量：偏η2（Partial EtaSquare）
      - 注：效果量与统计功效有多种计算方式，不同的计算方式结果也不同
- 两因素方差分析与交互作用
  - 交互作用（interaction）：指一个因素各个水平之间反应量的差异随其他因素的不同水平而发生变化的现象
    - 注1：交互效应中，两个自变量的地位相同，随意互换
    - 注2：最好的结果是，主效应都不显著，而交互效应显著 → 说明变量的影响具有特殊性，也说明研究的细致
  - SPSS操作：“分析”→“一般线性模型”→“单变量”→“图”：设置轴标签后、添加→事后比较：雪费→“选项”：描述统计、效用量估算、实测幂、齐性检验
  - 参考论文：
    - 交互作用显著：《共情倾向与受害者可识别性对大学生捐款意愿的影响：共情反应的中介作用》
    - 交互作用不显著：《班级欺凌规范与欺凌行为：群体害怕与同辈压力的中介作用》
- 实验设计与分析方法的参考图
  - 《用问卷做实验：调查实验法的概论与写作》（任莉颖）
    - 随机应答技术（Randomized Response Techique，RRT）
    - 分投选票（split-ballot）
    - 累计应答（aggregated response）
    - 列举实验（list experiment）
    - 条目计数法（Item Count Technique，ICT）
10.回归分析
- 简单（一元）线性回归分析（Unitary Linear Regression Analysis）的操作与判断指标
  - SPSS操作：“分析”→“回归”→“线性”
    - 回归方程的含义：需求量每增加1个单位，价格就会减少α个单位
    - 回归系数的含义：无论非标准化系数还是标准化系数，都是“斜率（slope）”
    - 非标准化系数 = 非标准化斜率 = B或者b
    - 标准化斜率 = Beta = β
    - 对回归结果进行图形化表达
  - 绘图要点：
    - ①图底下给注释，让别人知道图上的数字代表的都是什么
    - ②如果是投稿，根据期刊要求作图
  - 回归分析的判断指标
    - 均方误差MSE（mean squared error）来衡量我们的预测值和真实值的差异：
      - 公式：
    - 绝对均值误差MAE（Mean absolute error）：
      - 公式：
    - ①R方（R²、R square、coefficient of determination、决定系数）：0~1之间取值，表示自变量解释因变量变化原因的百分比，越大越好
      - 公式
      - 有解释平方和ESS（Explained Sum of Squares，也叫做SSR回归平方和）
        
        ESS公式
      - 总离差平方和TSS（Total Sum of Squares，也叫做SST总离差平方和）
        
        TSS公式
        转存失败重新上传取消
      - 代入????公式可得：
      - R²不一定为正数
        
        推导
    - ②ANOVA检验：同方差检验，F值越大越好，表明回归方程的显著性
    - ③斜率的t值及其显著性：对变量的回归系数的检验，越显著越好
    - ④调整R方（Adjusted R2）：R方的另一种指标，用于不同自变量数量或者不用样本量数量的回归方程的比较，较少使用
      - 参考文献：《Multivariate data analysis_7th_修订版》（Hair，2014）p189
    - 数据分析结果的判断
      - 模型摘要
    - 回归方程中，标准化系数与非标准化系数的解读：
      - 非标准化总是要带着原始的单位
      - 标准化之后所有的单位都是“标准差”
      - 文献参考： process教程的p15
      - 个人认为：每个自变量的标准化系数，就是不管常量，只看其自身对因变量的影响程度（|R²|）⭐
    - 两个变量的关系
      - 1.变量的协方差矩阵可以计算出回归的非标准化系数
      - 2.变量的协方差矩阵可以计算出相关矩阵
      - ☆3.变量的相关系数就是其标准化系数
      - ☆4.自变量与因变量互换位置后，标准化回归系数不变
- 多元回归分析
  - 多自变量回归分析→多元回归分析
  - 共线性诊断→ VIF：VarianceInflation Factor，方差膨胀因子，VIF＜3或者VIF小于5
    - 参考文献：《Multivariate data analysis_7th_修订版》（Hair，2014）p200
    - VIF本质为变量间的多元相关
      - VIF*容差=1→所以容差与VIF只需看一个，一般看VIF
      - 共线性并不是很重要→黄河泉老师与连玉君老师的对话https://zhuanlan.zhihu.com/p/64139543
- 控制变量与分层回归（Hierarchical Multiple Regression）
  - 在数据分析中，控制变量=自变量=协变量→无法直接从“协变量”的名称上直接看出其内涵，所以大家喜欢叫“控制变量”
  - 控制变量们会影响彼此的回归系数：
  - 多个自变量，如何判断谁的影响更大，或者谁更重要呢？
    - ①标准化回归系数β
    - ②R²增量——△R²
      - ①使用除了B3之外的自变量，对因变量A1做一次回归，查看R²
      - ②使用全部的自变量对因变量A1做一次回归，查看R²
      - ③计算两次分析时，R2的差，这个差就是B3带来的△R²
    - ③f²——PLS模型里喜欢用
  - SPSS中的简化操作
    - ①进入回归分析界面
    - ②因变量放入A1，自变量放入B2与B4
    - ③点击“下一个”，进入层2
    - ④自变量处放入B3
    - ⑤“统计”→勾选“R方变化量”与“共线性诊断”
    - 图解
    - 结果解读
      - 图：
      - f²——新增变量对解释因变量的贡献程度，在0~1之间，smartPLS喜欢的指标
        
        计算公式：f²=△R²/（1-原R²）
        
        R²：解释因变量变异的百分比
        
        原R²：原方程的解释百分比
        
        △R²：新增变量的解释百分比
        
        分析结果的表格报告
        
        图：
      - 如果报告保准化结果，可以只报告：
        
        ①标准化回归系数β
        
        ②t值及显著性星号
        
        ③截距（常数项）直接省略
        
        ④R²
        
        ⑤F值及显著性星号
        
        ⑥其他指标，诸如△R² 、△F等
    - 分层回归中
      - ①控制变量往往放在第一层，自变量放在后一层（可以放很多层，也可以一起放在同一层）
      - ②人口学变量常常喜欢当做控制变量，放在第一层
      - ③在论文中，更常见的是，所有变量一起放进回归方程中，不分层（相当于直接看最后一次的回归结果）
    - 标准化回归系数会不会大于1？大于1怎么办？
      - ①都是连续变量的时候，标准化回归系数可能大于1——拥有多个自变量的时候才会发生这种情况；如果自变量是分类变量的时候，自变量标准化没有意义，所以仅仅只会对因变量标准化，则回归系数大于1也是正常的。
      - ②标准化回归系数大于1，可能是正常的，参考文献：《Onthe Occurrence of Standardized Regression Coefficients Greater Than One》
      - ③期刊文献中标准化系数大于1的论文：《Spatialdistribution of patents in China》
      - ④在SEM（结构方程模型）中，例如CFA的标准化因子载荷大于1，可能原因有：
        
        ①测量题项存在共线性，高相关；
        
        ②数据质量很差，例如严重偏态或者存在异常值；
        
        ③属于“HeywoodCase”情况，样本量太少或者模型设置问题（例如一个维度只有两个题项）
- 二次项（平方项）的回归分析
  - 二次项→变量间的曲线关系→是否存在曲线关系，由二次项的系数决定（也就是二次项的回归系数是否显著）
  - 分析二次项的操作流程
    - ①使用SPSS做出平方项
    - ②平方项与一次项一起放进回归方程
      - 使用了二次项回归的论文：《辱虐管理对建言影响的曲线效应：价值观和性别的调节作用》
  - 相关理论
    - 生命周期理论
    - 耶基斯-多德森定律——关于动机与效率的一种曲线模型，动机适中，效率最高
- 分类变量的回归
  - OLS回归：因变量只能是连续变量，但自变量可以是分类变量
  - 尝试操作：性别作为自变量，A1作为因变量，进行回归分析
  - 结果解读
    - 系数：
    - 从女性到男性，性别就增加了1个单位，而A1就增加了0.598？——性别差异？使用t检验与方差分析进行验证
    - 结果比较
      - 图
  - 采用虚拟变量（Dummy Variables，也称为“哑变量”）
    - 多分类变量的虚拟化——以三分类变量“cate”为例
      - “转换”→“创建虚变量”→“cate”→“输入根名称”
        
        图
      - 虚拟变量的特征：三分类的变量，拆成了三个变量，新的变量只有0和1，对应于原来三分类变量的分类1、2和3
      - 多分类变量的虚拟化：虚拟变量个数=原分类数量-1（本案例中多创造了一个）
      - 数量减少的原因：需要找一个组作为基准的组，用其它组与之进行比较，而基准的组就成了回归的截距，其它组则变成了斜率
      - 实例操作1：cate作为自变量，A1作为因变量，进行方差分析与回归分析
        
        图
      - 分类变量的回归分析流程
        
        ①对多分类变量进行虚拟化
        
        ②虚拟变量个数=原分类变量的分类数-1，缺少的组为基准的比较组，回归中的截距
        
        ③回归分析的斜率就是相应的某个组与基准组均值的差
      - 实例操作2：Q1做自变量，B1做因变量，进行方差分析与回归分析
        
        新问题：回归分析中斜率的显著性与方差分析中两两比较的显著性不同
        
        建议的解决方案：用均值最低或者最高的组作为基准的比较组
        
        分类变量做控制变量文献：《管理者可信行为对员工建设性建言的影响研究》
11.中介分析
- 多个变量之间一连串的影响关系（因果关系），回归分析的组合
- 中介分析的检验方法
  - 图解：
  - 直接效应 direct effect
  - 间接效应 indirect effect
  - 总效应 total effect
- 论文参考：《中介效应分析：方法和模型发展》
- Bootstrap方法
  - 回归系数的显著性 → p值与置信区间 → t值 → 标准误与非标准化回归系数
  - t 值 = 非标准化回归系数/标准误
  - 置信区间 = [ 非标准化斜率 - 1.96*标准误，非标准化斜率 + 1.96*标准误 ]
  - 在普通回归分析中，t值的显著性与置信区间的显著性一致！

秒客网

统计分析-学习笔记

相关文章