论文|正则策略综述总结

时间:2024-03-31 11:24:35

关于正则技术的论文,主要有:

1.仅对传统机器学习中,正则项的总结,包括对向量正则,和矩阵的正则

2.提出了广义正则的概念,对于减少过拟合,提高泛化性能的策略统称为正则技术。

第一篇:A survey of regularization strategies for deep models(2019)

机器学习中很重要一点就是让一个算法有泛化性。没有免费午餐定理暗示了对于特定学习任务要有自己的算法设计。有一个调整算法适应问题的策略:核心是泛化能力的提升。

2015 Peng的一篇论文:
1.正则化可以帮助泛化
2.l2惩罚没有预期中有用
3.正则项表现依赖于数据集尺寸。
4.L2惩罚主要起局部作用,超参数可以逐步调整。
5.结合dropouot与l2,可以提高泛化。

一、过拟合的定义:风险在训练集误差小,测试集误差大。

偏差和方差的例子

论文|正则策略综述总结

图1通过向棋盘投掷飞镖来说明这一点。当两个类之间的边界不是一个被诱导的超平面时,线性学习者具有高偏差。另一方面,深度模型没有这个问题,因为它们可以表示复杂的函数,但是它们有高方差。例如,基于同一现象的不同训练集学习的深度卷积网络,经常发现模型的可学习参数值非常不同。

防止过拟合的一个方法是:交叉验证。例如,通过惩罚空间更大的分类器,偏向空间更小的较小分类器,可以避免过度拟合。

正则方法在保护深度模型免于过度拟合方面起着至关重要的作用,几乎所有深度模型都具有某种正则化以处理其高维参数空间的复杂性。

二、高维空间的正则化

随着维数的增加,越来越多的例子成为典型样本的最近邻。换句话说,多元高斯分布的大部分质量不在平均值附近,而是在它周围一个越来越远的“壳”中。许多人觉得可能会认为收集更多的特征没有坏处。但是“维度诅咒”带来了坏处。

有一种效果可以部分抵消这种诅咒,这可以称为“不均匀”。 例如在视觉,语音和自然语言处理之类的大多数应用中,示例不会在实例空间中均匀分布,而是集中在低维流形上或其附近。

三、正则化技术

1.权重衰减:包括稀疏表达,贝叶斯解释,添加约束

2.添加噪声:噪声可以添加到输入数据或网络的权重中。

添加噪声到数据等于加了一个l2正则项,因此,向数据添加噪声与权重衰减正则化具有相同的效果。

3.Dropout:包括 Standout; DropAll;Curriculum dropout;DropMaps

在神经网络训练中,随机让某些神经元在某一轮中不参与训练。

4.DropConnect

5.模型集成:比如Bagging 通过使用多个模型可以减小基础模型的泛化误差。多个模型被分别训练,并且为了确定最终结果,考虑所有模型的输出。在训练不同的模型时,数据集通过替换进行采样。

6.数据增强:增加训练样本的数量是提高模型泛化能力的最好方法之一。然而,增加数据集的大小既昂贵又耗时,因此数据集在实践中受到限制。然而,在某些任务中,我们可以利用现有数据集人工制作新的数据样本。例如,在图像分类任务中,模型必须对输入图像中的一些变换具有鲁棒性。因此,对现有图像应用过渡、缩放、旋转、反射和仿射变换,并将结果图像与相同的标签添加到数据集是合适的。如今,这种技术广泛应用于各种视觉应用中。(少样本学习中的某些技术也包括数据增强)

7.早停:因为某些时候,当超过一定的训练次数,验证集的损失开始增加。

论文|正则策略综述总结

8.对抗训练

深度模型在许多应用中都达到了人类的精确度。然而,这些模型对输入空间的微小变化有很高的敏感度

9.多任务学习:一个任务的信息表示对其他任务也是信息的是合理的。

10.分层预训练和初始化

11.架构正则化

设计架构约束是控制模型复杂性最有效的方法之一。
举一个例子理解,自然图像的领域知识已经有效地应用于卷积神经网络结构的设计中。自然图像中的对象可以存在于任何位置,因此在CNNs中,每个过滤器都被共享并应用于图像的所有位置。参数共享导致模型的参数数量急剧减少,并允许设计者在不需要大量训练数据集的情况下增加网络的深度和宽度。这样,在学习共享参数的过程中,使用了输入图像不同区域的数据,避免了过拟合。

12.标签光滑:标签平滑是一种通过在模型训练过程中加入一些标签dropout来规范分类器层的机制。

13.Batch normalization 

第二篇:Regularization for Deep Learning: A Taxonomy (2017)

原来的正则项定义:
“我们对学习算法进行的任何修改,旨在减少其测试错误,但不会减少其训练错误”。 
但,定义有些限制性,于是我们提出了广义定义,许多被视为正则化的技术确实会减少训练误差。

定义1.正则化是旨在使模型更好地泛化,即在测试集上产生更好结果的任何辅助技术。

一、通过数据实现正则

训练模型的质量有时取决于训练数据。 除了获取选择适当的训练数据外,还可以通过数据进行正则化:对训练集D进行一些转换产生一个新的集DR。 转换执行特征提取或预处理,将特征空间或数据的分布修改为某种表示形式,从而简化了学习任务。 

我们可以根据所使用的转换及其参数分布的属性对基于数据的方法进行分类:

1.随机性:是否服从某个确定性的分布

2.数据表示

(1)保留表示的转换:
保留元素空间并尝试保留数据分布
(2)表示形式修正的转换:
将数据映射到不同的表示形式(不同的分布or
新的特征空间),这可能会使
原始表示形式的潜在因素变得不明确,并使学习问题变得更加容易。

3.转换空间:输入层、隐层、目标层

4.统一性:通用or特定领域

Dropout就是一种通用的变换方法,而且有一些变体,这些变体都有附带的理论动机并且提升了经验结果。

5.是否依赖于某个分布

6.阶段:训练or测试

7.基于目标保护的数据增强

基于数据的正则化是改善深度学习结果的一种流行且非常有用的方法。 这节对这些方法进行了形式化验证,介绍了技术(例如,保留目标的数据扩充,Dropout或Batch规范化)在方法很接近。

二、通过网络架构进行正则化

可以选择网络体系结构f以使其具有某些属性或匹配某些假设,以产生正则化效果。

1.权重共享

2.**函数

3.噪声模型

4.多任务学习

5.模型选择

三、通过误差函数进行正则化

理想情况下,误差函数E反映了适当的质量概念,在某些情况下还反映了有关数据分布的一些假设。 典型的例子是均方误差或交叉熵。

四、通过正则项进行正则化

2范数,F范数等。

五、通过优化进行正则

1.比如一些随机方法。包括它的一些变体。

2.初始化和热启动:预训练/不进行预训练的初始化

3.终止条件:是否进行验证。是否要早停。

第三篇:A Survey on Nonconvex Regularization-Based Sparse and Low-Rank Recovery in Signal Processing, Statistics, and Machine Learning (2018)

这篇文章介绍了在这些领域中基于非凸正则化的稀疏和低秩恢复的最新进展,解决了罚值选择,应用和非凸算法收敛的问题。

这篇文章介绍了8个topics:CS,稀疏回归,稀疏信号分离,稀疏PCA,大稀疏协方差,逆协方差矩阵估计,矩阵补全,鲁棒PCA。

在这些主题中,CS,稀疏回归,稀疏信号分离和稀疏PCA是稀疏向量恢复问题,大稀疏协方差和逆协方差矩阵估计是稀疏矩阵恢复问题,而矩阵补全和鲁棒PCA是低秩恢复问题。 更准确地说,稀疏PCA并不是向量恢复问题,但是在许多流行的贪婪方法中,以逐个向量的方式估计PC。 同时,鲁棒PCA是一个稀疏的低等级恢复问题。

在稀疏和低秩恢复中都存在某些情况非凸正则化的使用是不必要,不会显着提高性能。本文阐明非凸正则化在信号处理,统计和机器学习的稀疏和低秩恢复中的作用,说明何时以及如何使用它。

论文|正则策略综述总结

 

 

论文|正则策略综述总结

压缩感知问题(CS):

论文|正则策略综述总结或者论文|正则策略综述总结

稀疏回归问题:

论文|正则策略综述总结

稀疏信号分离问题:

论文|正则策略综述总结

稀疏PCA问题:

论文|正则策略综述总结

大稀疏协方差问题:

论文|正则策略综述总结

逆协方差矩阵估计问题:

论文|正则策略综述总结

矩阵补全问题:

论文|正则策略综述总结

鲁棒PCA问题:

论文|正则策略综述总结

求解算法:上述非凸和非光滑问题,一阶算法通常是最有效的,例如最近梯度下降法、块坐标下降法和ADMM算法。

第四篇:Regularization for Deep Learning(某本书的第七章)

(和第一二篇文章差不多)

分别讨论了2范数(权重衰减),1范数,带约束惩罚,数据增强,噪声鲁棒(将噪声加到权重或模型中),半监督学习,多任务学习,早停,参数共享,稀疏表达,集成方法,dropout,对抗训练等正则化方法。