大数据集中的快速鲁棒模型选择-研究论文

时间:2024-06-29 22:34:32
【文件属性】:

文件名称:大数据集中的快速鲁棒模型选择-研究论文

文件大小:1.65MB

文件格式:PDF

更新时间:2024-06-29 22:34:32

Linear Regression Multicollinearity

大型数据集在许多研究领域越来越普遍。 尤其是在线性回归上下文中,经常会出现大量潜在协变量可用于解释响应变量的情况,合理统计分析的第一步是减少协变量的数量。 这可以在前向选择过程中完成,包括选择要输入的变量,决定保留它或停止选择和估计增强模型。 最小二乘加 t 检验可能很快,但当存在异常值时,前向选择的结果可能不是最理想的。 在本文中,我们提出了一种用于快速鲁棒模型选择的完整算法,包括对大样本量的考虑。 由于简单地用稳健的统计标准替换经典统计标准在计算上是不可能的,我们开发了简化的稳健估计器、选择标准和线性回归测试程序。 稳健估计量是一个一步加权的 $M$ 估计量,如果协变量不是正交的,它可以有偏差。 我们表明,通过进一步迭代 M 估计器一个或多个步骤,可以使偏差更小。 在变量选择过程中,我们基于稳健的 t 统计量提出了一个简化的稳健标准,我们将其与错误发现率调整水平进行比较。 我们进行了一项模拟研究,以展示我们的方法的良好性能。 我们还分析了两个数据集,并表明通过我们的方法获得的结果优于来自稳健 LARS 和随机森林的结果。


网友评论