1.问题
现有一份汽车满意度数据集 Car Evaluation,共 1728 个样本。预测目标为客户的汽车满意度 car_acceptability:
(1) 采用合理的分类模型,采用如逻辑回归、K 近邻、决策树、朴素贝叶斯、支持向量机等,建立该问题的分类预测模型,通过评价指标说明建立的模型优劣;
(2) 将上问题中关于客户汽车满意度原始数据集的标签去除,进行聚类分析,采用如:K-Means 聚类、MeanShift 聚类、层次聚类、DBSCAN 等聚类模型,采用合理的模型和参数获得聚类结果,通过评价指标说明建立的模型优劣,并将聚类结果与原来的分类结果进行比较。
2.解题
题目的本质是学习和区分有监督学习-分类与无监督学习-聚类,有监督学习分类和无监督学习聚类是机器学习领域中两个基本的任务。有监督学习分类是一种基于有标记数据的学习方法,在有监督学习分类中,模型需要从输入数据中学习特征与标签之间的关系,并能够对未知的输入数据进行准确的分类预测;无监督学习聚类是一种无需标记数据的学习方法,在无监督学习聚类中,模型需要将相似的数据点聚集在一起,将不相似的数据点分开,从而将输入数据分为多个簇。
2.1 分类
分类算法虽然原理不同,但在模型整体建立过程中体现在代码上只有导入包以及训练模型处语句不同,其它过程全部类似,因此以Logistic回归详细建立模型,其它分类算法同理可得。