文件名称:Data-Analytics-project-On-Census-Data
文件大小:451KB
文件格式:ZIP
更新时间:2024-05-20 23:25:18
R
数据分析项目普查数据 这是在人口普查数据集上完成的数据分析项目 问题陈述:分析人口普查数据并预测收入是否超过每年5万美元。 遵循涉及以下内容的端到端建模过程: 执行探索性数据分析并建立数据假设。 处理异常值并处理丢失的数据。 使用数据的分层随机抽样(SRS)创建训练和验证数据集。 在训练集上拟合分类模型(逻辑回归/决策树) 执行模型验证(ROC曲线,混淆矩阵) 冻结最终模型。 属性说明: 属性清单: 收入:> 5万,<= 5万年龄:连续。 工作类别:私人,自营非公司,自营公司,联邦*,地方*,州*,无薪,从未工作过。 fnlwgt:连续。 教育程度:学士,部分大学,11年级,高中毕业生,教授学校,Assoc-acdm,Assoc-voc,9、7th8th,12th,硕士,1至4、10,博士学位,5至6,学前班。 education-num:连续的
【文件预览】:
Data-Analytics-project-On-Census-Data-master
----boxplot_of_income_and_hours.per.week.png(4KB)
----roc_curve for_logistic_regression.png(4KB)
----boxplot_of_income_and_age.png(3KB)
----boxplot_of_income_and_education.num.png(3KB)
----roc_curve_For_decision_tree.png(4KB)
----roc_curve_For_random_forest.png(4KB)
----README.md(2KB)
----boxplot_of_income_and_fnlwgt.png(3KB)
----project.R(6KB)
----CensusData.csv(3.67MB)