Softmax回归

时间:2021-11-22 10:57:35

Reference:

http://ufldl.stanford.edu/wiki/index.php/Softmax_regression

http://deeplearning.net/tutorial/logreg.html

起源:Logistic的二类分类

Softmax回归是Logistic回归的泛化版本,用于解决线性多类(K类)的分类问题。

Logistic回归可以看作是Softmax回归在K=2时的特例。Softmax函数即是K分类版的Logistc函数。

裸Softmax回归的效果很差,因为没有隐层结构,归根还是是线性回归。所以在深度学习里,Softmax则通常作为MLP的输出层。

即,将BP网络和Softmax结合起来,取BP网络的隐层映射机制、Softmax的多分类机制,加以组合形成新的MLP架构。

这么做的原因就是,传统BP网络的输出层是个多神经元的自行设计接口层,比如常见的log2(K)方法,转多分类需要麻烦的编码。

但实际上,隐层(可看作是input)到输出层的映射原理等效于Softmax,既然Softmax拥有概率取分类的方法,何必再用低效的编码方法?

Part I  如何从2类转化为K类?

解决方案是引入K组(W、b)参数,即有K个分隔超平面,选择$max P(Y=j|x^{i},\theta,b)$作为最终分类即可。

由于存在K组参数,原来的$h(\theta)=sigmoid(Inner)$将从单个值,变成一个大小为K的向量。

Softmax回归

Part II  变化的目标函数

Logistic的目标函数: $J(\theta)=\sum_{i=1}^{m}(1-y^{(i)})log(1-h_{\theta}(x^{i})+y^{i}log(h_{\theta}(x^{(i)}))$

在Softmax里,由于$h_{\theta}(x^{(i)}$已经变成了向量,所以不能再使用。

实际上,在Logistic的推导里,$h_{\theta}(x^{(i)})$只是偶然而已,$P(y=0|x;\theta)=h(\theta)$。

即$P(y|x;\theta))$才是真正的概率分布函数,上述情况只是二项分布的特例。由于y的取值变成的K类,所以新的K项分布概率密度分布表示如下:

$P(y^{(i)}=j|x;\theta)=\frac{e^{W_{j}X^{i}}}{\sum_{l=1}^{k}e^{W_{l}X^{i}}}$

且定义$1\{y_{i}=j\}=(y_{i}==j)?1:0$

则  $J(\theta)=\sum_{i=1}^{m}\sum_{j=0}^{l}1\{y_{i}=j\}log\frac{e^{W_{j}X^{i}}}{\sum_{l=1}^{k}e^{W_{l}X^{i}}}$

仔细观察,其实就是$h_{\theta}(x^{(i)})$这个向量根据$y^{(i)}$情况抽取的单个值而已,这就是Logistic函数的修改版本——Softmax函数

梯度变成:$\frac{\partial J(\theta_{j})}{\partial \theta_{j}}=\sum_{i=1}^{m}x^{(i)}(1\{y_{i}=j\}-P(y^{(i)}=j|x;\theta_{j})),j=1,2....k$

可以使用梯度上升算法了(下降算法也可,即取均值加上负号,变成负对数似然函数):

$\theta_{j}^{new}=\theta_{j}^{new}+\alpha\frac{\partial J(\theta_{j})}{\partial \theta_{j}},j=1,2....k$

Part III  C++代码与实现

#include "cstdio"
#include "iostream"
#include "fstream"
#include "vector"
#include "sstream"
#include "string"
#include "math.h"
using namespace std;
#define N 500
#define delta 0.0001
#define alpha 0.1
#define cin fin
#define K 2
#define Dim dataSet[0].feature.size()
struct Data
{
vector<double> feature;
int y;
Data(vector<double> feature,int y):feature(feature),y(y) {}
};
struct Parament
{
vector<double> w;
double b;
Parament() {}
Parament(vector<double> w,double b):w(w),b(b) {}
};
vector<Data> dataSet;
vector<Parament> parament;
void read()
{
ifstream fin("fullTrain.txt");
double fea;int cls;
string line;
while(getline(cin,line))
{
stringstream sin(line);
vector<double> feature;
while(sin>>fea) feature.push_back(fea);
cls=feature.back();feature.pop_back();
dataSet.push_back(Data(feature,cls));
}
for(int i=;i<K;i++) parament.push_back(Parament(vector<double>(Dim,0.0),0.0));
}
double calcInner(Parament param,Data data)
{
double ret=0.0;
for(int i=;i<data.feature.size();i++) ret+=(param.w[i]*data.feature[i]);
return ret+param.b;
}
double calcProb(int j,Data data)
{
double ret=0.0,spec=0.0;
for(int l=;l<=K;l++)
{
double tmp=exp(calcInner(parament[l-],data));
if(l==j) spec=tmp;
ret+=tmp;
}
return spec/ret;
}
double calcLW()
{
double ret=0.0;
for(int i=;i<dataSet.size();i++)
{
double prob=calcProb(dataSet[i].y,dataSet[i]);
ret+=log(prob);
}
return ret;
}
void gradient(int iter)
{
/*batch (logistic)
for(int i=0;i<param.w.size();i++)
{
double ret=0.0;
for(int j=0;j<dataSet.size();j++)
{
double ALPHA=(double)0.1/(iter+j+1)+0.1;
ret+=ALPHA*(dataSet[j].y-sigmoid(param,dataSet[j]))*dataSet[j].feature[i];
}
param.w[i]+=ret;
}
for(int i=0;i<dataSet.size();i++) ret+=alpha*(dataSet[i].y-sigmoid(param,dataSet[i]));
*/
//random
for(int j=;j<dataSet.size();j++)
{
double ret=0.0,prob=0.0;
double ALPHA=(double)0.1/(iter+j+)+0.1;
for(int k=;k<=K;k++)
{
prob=((dataSet[j].y==k?:)-calcProb(k,dataSet[j]));
for(int i=;i<Dim;i++) parament[k-].w[i]+=ALPHA*prob*dataSet[j].feature[i];
parament[k-].b+=ALPHA*prob;
}
}
}
void classify()
{
ifstream fin("fullTest.txt");
double fea;int cls,no=;
string line;
while(getline(cin,line))
{
stringstream sin(line);
vector<double> feature;
while(sin>>fea) feature.push_back(fea);
cls=feature.back();feature.pop_back();
int bestClass=-;double bestP=-;
for(int i=;i<=K;i++)
{
double p=calcProb(i,Data(feature,cls));
if(p>bestP) {bestP=p;bestClass=i;}
}
cout<<"Test:"<<++no<<" origin:"<<cls<<" classify:"<<bestClass<<endl;
}
}
void mainProcess()
{
double objLW=calcLW(),newLW;
int iter=;
gradient(iter);
newLW=calcLW();
while(fabs(newLW-objLW)>delta)
{
objLW=newLW;
gradient(iter);
newLW=calcLW();
iter++;
//if(iter%5==0) cout<<"iter: "<<iter<<" target value: "<<newLW<<endl;
}
cout<<endl<<endl;
}
int main()
{
read();
mainProcess();
classify();
}

Softmax

Part IV  测试

使用Iris鸢尾花数据集:http://archive.ics.uci.edu/ml/datasets/Iris,是三类分类问题

该数据集的第三组数据是非线性的,若K=3训练,则因为非线性数据扰乱,错误率很大。

若K=2,则代码等效于Logistic回归,错误率相近。

Softmax回归的更多相关文章

  1. Softmax回归(Softmax Regression)

    转载请注明出处:http://www.cnblogs.com/BYRans/ 多分类问题 在一个多分类问题中,因变量y有k个取值,即.例如在邮件分类问题中,我们要把邮件分为垃圾邮件.个人邮件.工作邮件 ...

  2. DeepLearning之路(二)SoftMax回归

    Softmax回归   1. softmax回归模型 softmax回归模型是logistic回归模型在多分类问题上的扩展(logistic回归解决的是二分类问题). 对于训练集,有. 对于给定的测试 ...

  3. Machine Learning 学习笔记 &lpar;3&rpar; —— 泊松回归与Softmax回归

    本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 泊松回归 (Poisson ...

  4. Softmax 回归原理介绍

    考虑一个多分类问题,即预测变量y可以取k个离散值中的任何一个.比如一个邮件分类系统将邮件分为私人邮件,工作邮件和垃圾邮件.由于y仍然是一个离散值,只是相对于二分类的逻辑回归多了一些类别.下面将根据多项 ...

  5. UFLDL教程(四)之Softmax回归

    关于Andrew Ng的machine learning课程中,有一章专门讲解逻辑回归(Logistic回归),具体课程笔记见另一篇文章. 下面,对Logistic回归做一个简单的小结: 给定一个待分 ...

  6. 机器学习 —— 基础整理(五)线性回归;二项Logistic回归;Softmax回归及其梯度推导;广义线性模型

    本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 闲话:二项Logistic回归是我去年入门机器学习时学的第一个模 ...

  7. LR多分类推广 - Softmax回归&ast;

    LR是一个传统的二分类模型,它也可以用于多分类任务,其基本思想是:将多分类任务拆分成若干个二分类任务,然后对每个二分类任务训练一个模型,最后将多个模型的结果进行集成以获得最终的分类结果.一般来说,可以 ...

  8. Logistic回归(逻辑回归)和softmax回归

    一.Logistic回归 Logistic回归(Logistic Regression,简称LR)是一种常用的处理二类分类问题的模型. 在二类分类问题中,把因变量y可能属于的两个类分别称为负类和正类, ...

  9. 手写数字识别 ----Softmax回归模型官方案例注释(基于Tensorflow&comma;Python)

    # 手写数字识别 ----Softmax回归模型 # regression import os import tensorflow as tf from tensorflow.examples.tut ...

随机推荐

  1. Ubuntu14&period;04 安装Gitlab

    安装ubuntu 操作系统 除了 openssh server 其它都不需要 配置软件源 root@gitlab:~# cat /etc/apt/sources.list deb http://mir ...

  2. R如何检验类别变量(nominal variable)与其他变量之间的相关性

    1.使用Pearson积差相关系性进行检验的话可以判断两个变量之间的相关性是否显著以及相关性的强度 显著性检验 (significant test) 连续变量 vs 类别变量 (continuous ...

  3. Windows Server

    1. Windows Server 在试用license过期后会出现2小时一次的关机.如果暂时无法注册或者激活,下面的方法可以试试 taskkill /f /im wlms.exe ping -n 1 ...

  4. Java面向对象详解

    Java面向对象详解 前言:接触项目开发也有很长一段时间了,最近开始萌发出想回过头来写写以前学 过的基础知识的想法.一是原来刚开始学习接触编程,一个人跌跌撞撞摸索着往前走,初学的时候很多东西理解的也懵 ...

  5. HDU 5044 离线LCA算法

    昨天写了HDU 3966 ,本来这道题是很好解得,结果我想用离线LCA 耍一把,结果发现离线LCA 没理解透,错了好多遍,终得AC ,这题比起 HDU 3966要简单,因为他不用动态查询.但是我还是错 ...

  6. 我的Emacs配置文件

    (custom-set-variables ;; custom-set-variables was added by Custom. ;; If you edit it by hand, you co ...

  7. 0428-css样式

    一.CSS样式表      引入的三种方式1.内联样式:标签内部     style2.内嵌样式:<head></head>标签内部(<style></sty ...

  8. &lpar;最完美&rpar;红米手机4的USB调试模式在哪里开启的经验

    每次我们使用安卓手机通过数据线连接上Pc的时候,或者使用的有些应用比如我们团队营销部门每次使用的应用引号精灵,之前的老版本就需要开启Usb开发者调试模式下使用,现每次新版本不需要了,如果手机没有开启U ...

  9. java项目(学习和研究)

    java项目就是研究,不断的对项目进行迭代,把产品做的越来越好,就是research. 自己想着做一个java项目把,可以类似牛客网,想好自己的预期产品,在设计的过程中可以不断改进和扩展,在做这个项目 ...

  10. C&num;里面的事物回滚,解决同步数据插入时出现重复数据

    什么是事物回滚: 举个栗子,你在你家的银行分行取钱,取完钱数据要同步,而且可能每个分行都有一个存储这些数据的数据库,分行的这些 存取的记录都需要实时同步,如果你取完500刚好断电了,好嘛,分行可能刚记 ...