1、简介
深度学习需要大量的标签样本,为解决标签问题提出了迁移学习,即从相关的source domain 去学习标签好的数据。但由于不同域间的数据分布也不同,所以学习得到的模型泛化能力不高。
在训练、测试数据的分布有变动的情况下去学习一个判别模型叫做domain adaptation 或transfer distributions。
在深度特征学习中嵌入domain adaptation模块去提取固定特征 已经证明能带来新的优势。之前的domain adaptation都是在全局域上做迁移,导致一个域内不同类别的数据会被混淆,因此不能学习到好的特征结构。
2、方法
2.1新方法的概念
提出DSAN网络:在DANs网络的基础上对其子域来增强特征的表现能力。
为了实现正确的对齐
早期使用的方法是MMD:把source和target用一个相同的映射映射在一个再生核希尔伯特空间(RKHS)中,然后求映射后两部分数据的均值差异。
现设计了一个局部最大平均差(LMMD)(它在考虑不同样本权重的情况下,测量源域和目标域中相关子域的经验分布的核平均嵌入之间的Hilbert-Schmidt范数)LMMD方法可以在大多数前馈网络模型中实现,并且可以使用标准反向传播进行有效的训练。
2.2方法的实现
2.2.1网络的结构
在ResNet的基础上添加LMMD模块来是的相关子域更相近。LMMD计算公式如下
最终DASN网络的损失函数如下:
2.3背景
DAN是在DDC(deep domain Confusion)的基础上发展来的:
DAN解决了DDC的两个问题:
DDC只适配了一层网络,可能还是不够,因为Jason的工作中已经明确指出不同层都是可以迁移的。所以DAN就多适配几层;
DDC是用了单一核的MMD,单一固定的核可能不是最优的核。DAN用了多核的MMD(MK-MMD),效果比DDC更好。
总结:DANs是多层适配和多核MMD。
迁移学习目前的潮流有两种:
第一种是基于统计矩匹配的方法,即最大均值偏差(MMD)、中心矩差异(CMD)
第二种常用的方法是基于对抗性损失,它鼓励来自不同领域的样本对于领域标签是非歧视性的,即借用了GAN的思想
一般来说,采取adversarial loss的效果比statistic moment matching-based 效果好。
但这篇论文用的DSAN证明能取得更好的效果。
3实验结果分析:
在OFFICE31、CLEF-D等数据集上测试得出:
DASN与MMD的模型:能提高10-20%个百分点的精确率。
DASN与主流的(带对抗损失)模型比较 :能提高5个百分点的精确率。
4、结论
DSAN预测能力不仅高于主流的对抗损失模型、速度也更快、而且易于实现。