【深度学习】处理不平衡样本

不平衡样本：

训练样本中各类别间数量差距较大。

易导致过拟合，影响在 极端测试集 (量少类样本居多) 上的 泛化能力 。

对不平衡样本的处理手段主要分为两大类：数据层面 (简单粗暴)、算法层面 (复杂) 。

Note：
为了简明扼要，以下称量少的类别为 量少类，反之亦然。

通过设计 样本列表 来实现平衡采样。

在目标函数中，增加 量少类 样本 被错分 的 损失值 。

利用 $\times K$ 的矩阵 $C$ 对不同样本类别施加错分惩罚。

每个样本 都具有自己的代价敏感矩阵。一旦这样些代价敏感矩阵相同，则该方法退化为“基于代价敏感矩阵的代价敏感向量”。

Example：

Focal Loss
focal loss 的出现，是一个伟大的里程碑。它的出现，直接将类别不平衡处理从原来繁杂的人工时代进化到了 纯计算时代 。管你类别再不平衡，只需一个简单的公式，统统搞定：
$FL(p_t)=-(1-p_t)^\gamma\log(p_t)$

[1] Focal Loss for Dense Object Detection

秒客网