文件名称:imbalanced-dataset-sampler:(PyTorch)不平衡数据集采样器,用于对低频率类进行过采样和对高频率类进行欠采样
文件大小:290KB
文件格式:ZIP
更新时间:2024-05-19 12:01:38
pytorch image-classification imbalanced-data data-sampling Python
不平衡数据集采样器 介绍 在许多机器学习应用程序中,我们经常遇到数据集,其中某些类型的数据可能比其他类型的数据更多。 以鉴定罕见病为例,正常样本可能比疾病样本更多。 在这些情况下,我们需要确保训练后的模型不偏向具有更多数据的类。 例如,考虑一个有5个疾病图像和20个正常图像的数据集。 如果该模型预测所有图像均正常,则其准确性为80%,并且该模型的F1分数为0.88。 因此,该模型极有可能倾向于“正常”类别。 为了解决该问题,广泛采用的技术称为重采样。 它包括从多数类中删除样本(欠采样)和/或从少数类中添加更多示例(过采样)。 尽管平衡课堂有很多好处,但这些技巧也有其缺点(没有免费的午餐)。 过度采样的最简单实现是复制少数类的随机记录,这可能会导致过度拟合。 在欠采样中,最简单的技术涉及从多数类中删除随机记录,这可能会导致信息丢失。 在此仓库中,我们实现了一个易于使用的PyTorch采样
【文件预览】:
imbalanced-dataset-sampler-master
----torchsampler()
--------__init__.py(164B)
--------__about__.py(445B)
--------imbalanced.py(2KB)
----.gitignore(1KB)
----setup.cfg(850B)
----README.md(4KB)
----.github()
--------workflows()
----examples()
--------imagefolder.ipynb(101KB)
--------mnist.ipynb(300KB)
----LICENSE(1KB)
----requirements.txt(27B)
----MANIFEST.in(398B)
----setup.py(2KB)