1、Latent Dataset Distillation with Diffusion Models
中文标题:潜在数据集精炼与扩散模型
简介:传统上,机器学习的有效性取决于可用的大型数据集。然而,大型数据集可能会带来存储挑战,并包含一些在训练过程中可以被忽略而不影响模型最终准确性的样本。为了克服这些限制,提出了数据集蒸馏的概念,即将数据集信息提炼为一组合成样本。其中一个关键方面是选择连接原始数据和合成数据的体系结构(通常为ConvNet)。然而,如果所选的模型架构与蒸馏过程中使用的模型不同,最终准确性可能会降低。另一个挑战是生成高分辨率图像,如128x128及更高分辨率的图像。本文提出了一种新方法,称为潜在数据集蒸馏方法(LD3M),结合了潜在空间中的扩散模型和数据集蒸馏,以解决这些挑战。LD3M利用专为数据集蒸馏定制的新型扩散过程,提高了学习合成图像的梯度范数。通过调整扩散步数,LD3M还提供了一种简单的方法来平衡速度和准确性之间的权衡。我们在几个ImageNet子集和高分辨率图像(128x128和256x256)上对我们的方法进行了评估。结果表明,LD3M始终优于最先进的蒸馏技术,在每类1个和10个图像的情况下,分别提高了4.8个百分点和4.2个百分点。
2、Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning
中文标题:语言模型是拼图天才吗?算法拼图揭示了多模态推理中的严峻挑战。
简介:这篇文章介绍了一项新颖的任务——多模态拼图求解,将其放置在视觉问答的背景下。我们创建了一个名为AlgoPuzzleVQA的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图方面的能力。这些拼图涵盖了各种数学和算法主题,如布尔逻辑、组合数学、图论、优化和搜索,旨在评估视觉数据解释与算法问题解决技能之间的差距。数据集是通过人类编写的代码自动生成的,所有拼图都有确切的解决方案,可以从算法中找到,无需繁琐的人工计算。这确保了数据集在推理复杂性和数据集大小方面可以任意扩展。研究结果显示,大型语言模型(LLM)如GPT4V和Gemini在拼图解决任务中表现有限。在多项选择问答设置中,它们在大量拼图中的表现接近随机。这些发现突出了将视觉、语言和算法知识整合起来解决复杂推理问题的挑战。
3、ECAP: Extensive Cut-and-Paste Augmentation for Unsupervised Domain Adaptive Semantic Segmentation
中文标题:ECAP:无监督领域自适应语义分割的广泛剪切粘贴增强
简介:这篇文章研究了在语义分割中应用无监督域自适应(UDA)的情况,即在已标记的源数据集上训练模型,然后将其适应到未标记的目标数据集上。然而,目前的自训练方法容易受到错误预测导致的伪标签影响。由于在UDA中,某些类别通常与不可靠的预测相关联,因此在不偏向某些类别的情况下减少这些伪标签的影响是非常困难的。为了解决这个问题,本文提出了一种名为广泛剪切-粘贴增强(ECAP)的策略,利用数据增强来利用可靠的伪标签。具体来说,ECAP在训练过程中维护一个伪标记目标样本的内存库,并将最可靠的样本剪切粘贴到当前的训练批次中。通过在最近的方法MIC基础上实现ECAP,提高了其在两个从合成到真实的域自适应基准测试中的性能。值得一提的是,MIC+ECAP在Synthia->Cityscapes基准测试中取得了69.1 mIoU的前所未有性能。您可以在https://github.com/ErikBrorsson/ECAP 上找到我们的代码。