University-Enrollment

时间:2024-04-03 21:54:57
【文件属性】:

文件名称:University-Enrollment

文件大小:791KB

文件格式:ZIP

更新时间:2024-04-03 21:54:57

大学录取 数据挖掘方法预测大学入学率 我们的分析主要包括五个部分:数据探索,数据转换,建模,模型比较和结论。 我们根据验证错误分类率来选择最佳模型。 我们还确定了最重要的预测变量,并获得了得分数据集。 数据探索:首先,我们评估了原始数据集并发现了一些变量中的缺失值。 注意这一点很重要,因为某些模型可能需要插补才能正确运行。 我们还分析了区间变量的分布(请参见附录图1)。 除“ satscore”外,所有间隔变量都高度偏斜。 我们调查了对这些变量的转换,以减少偏度并增加正态性。 数据插补和转换:在插补过程中,我们用模式替换了丢失的类变量值,并用均值替换了丢失的区间变量。 我们使用转换“最大正态”选项来评估偏斜变量的适当转换。 对数转换用于自我发起的联系,总联系和平均收入。 距离变量为平方根,初始跨度为幂函数。 这些转换导致偏斜度和峰度均减小(参见附录图2)。 其他变量未进行转换,因为没有


【文件预览】:
University-Enrollment-main
----score.sas7bdat(2.75MB)
----README.md(8KB)
----Project.docx(483KB)

网友评论