多类分类指的是分类问题,其中可以有两个以上可能的输出标签,不只是零或一。
以手写数字为例,到目前为止研究的分类问题,只是想区分手写的数字0和1,但如果你想阅读信封上的邮政编码,实际上有十个可能的数字你可能想识别,或者患者可能患有三种或五种不同的疾病中的任何一种,也会是一个多类分类问题,可能会看到一张制药公司生产的药丸的照片,尝试找出它有划痕缺陷或变色缺陷或芯片缺陷,这也是个多类问题,可以将此投票归类为具有的不同类型的缺陷,所以多类分类问题仍然是分类问题,因为y只能接受少量离散范畴,不是任何数字,但是现在y可以接受不止两个可能的值。
所以以前的二进制分类,逻辑回归将适合一个模型来估计,给定特征X,因为y不是0就是1,具有多类分类问题,相反,你将有一个数据集,它可能看起来像这样,有4个图形,其中⚪代表一个类,×代表另一个类,????代表第三类,♦代表第四类,而不是仅仅估计y=1的几率,要估计y=1或者y=2的概率有多大,结果是学习算法——决策边界,它将X1和X2分为四个类别,而不仅仅是两个类别。