【文件属性】:
文件名称:uda:无监督数据增强(UDA)
文件大小:323KB
文件格式:ZIP
更新时间:2024-02-24 09:01:11
nlp natural-language-processing computer-vision tensorflow cv
无监督数据增强
总览
无监督数据增强或UDA是一种半监督学习方法,可在各种语言和视觉任务上实现最新的结果。
仅用20个标记的示例,UDA优于以前在25,000个标记的示例上训练的IMDb的最新技术。
模型
带标签的示例数
错误率
混合增值税(以前的SOTA)
25,000
4.32
伯特
25,000
4.51
UDA
20
4.20
使用CIFAR-10(带有4,000个标记的示例)和SVHN(带有1,000个带标记的示例),可将最新方法的错误率降低30%以上:
模型
CIFAR-10
SVHN
ICT(以前的SOTA)
7.66±.17
3.53±.07
UDA
4.31±.08
2.28±.10
有了10%的标签数据,它就对ImageNet进行了重大改进。
模型
top-1精度
前5位准确性
ResNet-50
55.09
77.26
UDA
68.78
88.80
这个怎么运作
UDA是一种半监督学习的方法,它减少了对带有标记的示例的需求,并更好地利用了没有标记的示例。
我们发布的内容
我们发布以下内容:
基于BERT的文本分
【文件预览】:
uda-master
----.gitignore(27B)
----text()
--------extract_raw_text.py(3KB)
--------bert()
--------data()
--------augmentation()
--------uda.py(12KB)
--------utils()
--------scripts()
--------preprocess.py(19KB)
--------main.py(12KB)
----CONTRIBUTING.md(1KB)
----LICENSE(11KB)
----README.md(8KB)
----image()
--------randaugment()
--------utils.py(4KB)
--------scripts()
--------preprocess.py(13KB)
--------main.py(21KB)
--------data.py(6KB)
----back_translate()
--------run.sh(3KB)
--------example_file.txt(464B)
--------sent_to_paragraph.py(2KB)
--------split_paragraphs.py(4KB)
--------download.sh(755B)