【文件属性】:
文件名称:模型建立-abaqus帮助文档
文件大小:1.95MB
文件格式:PDF
更新时间:2021-07-02 06:22:20
美赛 数学建模 数据
表5.2 列数据质量信息表
特征 类别 缺失数量 缺失比例 min mean max
country 连续 0 0 4 123.5877 1004
country_txt 连续 0 0
provstate 连续 10 0.01%
city 连续 434 0.38%
latitude 连续 934 0.82% -42.884 26.48185 74.63355
longitude 连续 934 0.82% -124.225 50.93321 179.3667
location 连续 59535 52.14%
summary 连续 0 0
targsubtype1 连续 7033 6.16% 1 47.8596 113
targsubtype1_txt 连续 7033 6.16%
corp1 连续 10354 9.07%
target1 连续 172 0.15%
natlty1 连续 1126 0.99% 4 127.6888 1004
由上表可见,数据缺失值严重,因此我们采用以下规则进行了数据清洗:
①删除缺失值超过85%的特征,剩余特征数:60个;
②在剩下的60个特征中,删除文本类型特征,GTD标志号,年,月,日等特
征,剩余特征数38个,其中30个分类变量,8个数值变量;
③在进行完以上两部之后,删除行数据缺失值超过50%的事件,删除死亡总
人数不确定的行,剩余10万余行数据。
5.3 模型建立
根据题意,首先要选择分级要素,通过数据预处理,我们得到38个变量。
第一步:筛选变量