文件名称:Class-Rebalancing:分类问题中数量不均衡造成的影响和解决之道
文件大小:10KB
文件格式:ZIP
更新时间:2024-06-01 01:03:43
machine-learning Python
类别再平衡 在分类问题中,不同类别数量不均衡是很常见的问题。本文尝试用代码示例的方式,讲清楚其造成的影响和解决之道。 造成影响 假设训练样本有4类,总数为1111个。每类数量为: 类别 数量 1 1 2 10 3 100 4 1000 使用交叉熵作为损失函数: 分类器若对每个样本都预测为类别x, 则平均损失为: 类别 损失 1 18.404100479328054 2 18.254878043009175 3 16.76265367982039 4 1.8404100479327707 显然在训练中,分类器会学着把所有样本都分在第四类的,而这并非我们期望的。 类别再平衡 假设按照每类样本数量计算权值,进行再平衡: 类别 权值 1 1111/1 2 1111/10 3 1111/100 4 1111/1000 计算损失函数时考虑权值: 则在分类器若对每个样本都预测为相同类别是平均损失为: 类
【文件预览】:
Class-Rebalancing-master
----images()
--------no_rebal.png(4KB)
--------class_rebal.png(4KB)
----class_rebal.py(825B)
----no_rebal.py(725B)
----README.md(1KB)