逻辑斯谛回归之决策边界 logistic regression -- decision boundary
logistic回归虽然带着回归两字却和线性回归有很大的区别,在前几篇博客中完整的介绍了线性回归。线性回归主要用于预测问题,其输出值为连续变量,而logistic回归主要用于分类问题,其输出值为离散值。logistic回归可以用于多元分类问题,也可以用于二元分类问题,但二元分类更为常用。因此本文只介绍二元分类的应用。 先来看一些logistic回归的基本东西,logistic回归的假设函数为:, .因此 其中称为S型函数(sigmoid function)或者逻辑函数(logistic function),其函数图像如图所示:
从函数图像中很容易观察出 ,即 举个例子:对于肿瘤数据集,假设其中一个特征为肿瘤的尺寸,结果为{恶性,良性}。假设 , 即肿瘤为恶性的概率为0.7,因此 ,看不懂什么意思的强烈建议去补下概率论,即在给定的条件下y=1的概率。对于二元分类问题, 。logistic回归基本的东西就先介绍到,下面介绍决策边界(decision boundary),所谓决策边界就是能够把样本正确分类的一条边界,主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)。注意:决策边界是假设函数的属性,由参数决定,而不是由数据集的特征决定。下面主要举一些例子,形象化的来说明线性决策边界和非线性决策边界。 先看一个线性决策边界的例子:(注:图片来源:ng的machine learning课)
这个应该很好理解了,至于为什么predict y=1 if 请滚动鼠标回看上面的公式。
再来看一个非线性决策边界的例子:
决策边界先介绍到这,至于如何自动选择参数 ,将在下篇博客中介绍,请大家关注。