文件名称:regression_case_study
文件大小:12.07MB
文件格式:ZIP
更新时间:2024-03-26 01:43:32
JupyterNotebook
HIV回归案例研究 使用合并的艾滋病毒模型。 我们想找出哪种预测变量组合(X)为目标(Y)创造了最佳预测。 在我们的案例中,我们想将线性回归与岭回归和套索回归进行比较,以查看哪个模型返回的最低均方误差。 从最佳拟合回归中,我们将在OLS回归的帮助下选择最具影响力的功能。 1)我们接受了合并的数据框,并删除了nan值。 2)在我们的EDA期间,我们研究了特征之间的初始Pearson相关性,因为它们与我们的目标变量“ HIV患病率”(病例数/人口数)相关。 我们发现以下各列的Pearson相关性高于.25。 HIV感染,HIV感染MH_fac Med_mh_Fac。 Med_sa_fac Med SMAT _fac。 TMAT。 Plhiv。 SmATred_fac Tmat_fa bup_phys。 %msm12month%msm5ye 3)我们的下一步是将Train-Test-S
【文件预览】:
regression_case_study-main
----images()
--------LASSO_regression_train_and_test_MSE.png(16KB)
--------OLS.png(396KB)
--------LASSO_regression_standardized_coefficient_paths.png(106KB)
--------LASSO_regression_standardized_coefficient_paths_pt2.png(70KB)
--------OLS_pt2.png(290KB)
--------LASSO_regression_train_and_test_MSE_pt2.png(16KB)
--------ridge_regression_train_test_MSE.png(16KB)
--------ridge_regression_standard_coefficient_paths.png(141KB)
----data()
--------ACS_14_5YR_health_insur_coverage()
--------ACS_14_5YR_poverty()
--------ACS_14_5YR_employment()
--------amfAR()
--------CAMP()
--------ACS_14_5YR_income()
----lasso_pt2.ipynb(144KB)
----reg_cs.ipynb(580KB)
----merge_data.ipynb(108KB)
----.ipynb_checkpoints()
--------reg_cs-checkpoint.ipynb(574KB)
--------merge_data-checkpoint.ipynb(115KB)
--------lasso_pval-checkpoint.ipynb(579KB)
--------lasso_pt2-checkpoint.ipynb(197KB)
--------lasso_pval_try2-checkpoint.ipynb(197KB)
--------lasso_pt3-checkpoint.ipynb(72B)
----README.md(4KB)
----utils()
--------utils.py(1KB)
--------__pycache__()
----lasso_pval.ipynb(406KB)
----merged_data.csv(670KB)