2.1、由文本生成图像的扩散模型
(1)有名的文生图模型:Stable diffusion、Imagen、DALL-E3以及一些其他变体;
(2)但这些 SOTA 扩散模型不能通过基于文本的提示控制在绿色画布上稳定地生成任意的超详细对象;(对齐颗粒度,我要追求细致~)
2.2、数据合成
(1)早期关于数据集合成的研究主要采用三维场景图,与现实世界的数据集相比,合成数据集往往表现出领域差距,包括外观和内容的差异;
(2)生成式对抗网络利用图像到图像的转换来记住这个在外观和内容上的差距,如DatasetGAN、BigDatasetGAN;
(3)扩散模型出现后,已初步尝试应用它们来生成下游任务的合成图像,如:FreeMask、DiffuMask;
(4)理想情况下,文本条件的生成模型能够放松严格的约束,并通过文本短语合成任意对象,这使得它有可能生成“任何东西”;
2.3、Matting-level数据集
(1)图像抠图是指对图像和视频中前景目标的精确估计;
(2)抠图级标注费时费力,目前使用广泛的数据集 Composition-1k、Distinctions-646、AIM-500、P3M-500、AM-2k 的数据量并不大;