文件名称:Diabetes-prediction
文件大小:369KB
文件格式:ZIP
更新时间:2024-06-02 11:12:09
Python
README 1 问题描述 这个比赛的任务是预测妊娠期妇女是否患有妊娠期糖尿病,label只有一列,0表示未患病,1表示患病。一共有1000条训练样本,85维特征。线上测试样本为200条,采用F1值来评价结果好坏。由于样本较少所以很容易出现过拟合问题。在85维特征中,有30个是身体指标特征,诸如年龄、身高、体重、BMI、胆固醇指标等等,其他55个是基因特征,基因特征有3中取值0,1,2代表生物学中的AA、Aa、aa。下面介绍赛题思路。 1 连续特征类 查看数据的分布,采用不同的填充办法,比如平均值、中值、众数等 以平均值为标准值,添加和平均值的差值,以及差值的绝对值 对连续特征做归一化处理,由于后面需要对特征之间做运算,所以需要把0替换成极小值 归一化处理后做加减乘除和反除,以得到组合特征。 2 离散特征类 离散特征采用one-ht编码 编码后的特征做与、或、异或、同或处理 3 特征
【文件预览】:
Diabetes-prediction-master
----medical_AL_NN.py(14KB)
----3_linear_model.py(3KB)
----visualize-data.py(2KB)
----决赛经验.pdf(311KB)
----medical_AI.py(10KB)
----README.md(3KB)
----1_feature_unlinear.py(13KB)
----1_feature_linear.py(9KB)
----4_XGBoost.py(4KB)
----xgb.fmap(284KB)
----2_lightGBM.py(4KB)
----5_bagging.py(851B)