文件名称:数据预处理部分_基于多种模型集成学习的旅行目的地预测.ipynb
文件大小:2.52MB
文件格式:IPYNB
更新时间:2022-03-16 10:35:27
集成学习 机器学习 人工智能 数据预处理 数据分析
此部分主要对公开的数据进行汇总处理,用图表的形式客观的展现出相关特征变量。并通过适当的修改和填补,完善数据集。 论文的数据来自Kaggle网站的公开比赛,数据可以从以下公开网址获取:https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data。此次需要通过数据预测新用户在Airbnb民宿上首次预定的目的地是哪个国家。在下载得到的数据中,一共包含6个子数据集,分别是age_gender_bkts.csv, countries.csv, sample_submission_NDF.csv, session.csv, test_users.csv, train_users_2.csv. 由于在test_users.csv数据中没有目标变量,因此在运用测试集中会从train_users_2.csv中进行训练集和测试集的划分。