Imagen 文本到图像扩散模型
Imagen 是一种文本到图像扩散模型,具有前所未有的逼真度和深度的语言理解能力。该模型充分利用了大型变压器语言模型在理解文本方面的强大能力,并依赖于扩散模型在生成高保真图像方面的强大性能。研究人员的关键发现是,通用的大型语言模型(例如 T5),在仅对文本进行预训练的语料库上表现出惊人的编码文本用于图像合成的效果:在 Imagen 中增加语言模型的大小不仅提高了样本的保真度,还显著提升了图像与文本的对齐度,远远超过了增加图像扩散模型的大小。在 COCO 数据集上,Imagen 实现了新的最先进 FID 分数为 7.27,而且从未在 COCO 上进行过训练,人工评估者发现 Imagen 的样本在图像与文本对齐方面与 COCO 数据本身不相上下。为了更深入地评估文本到图像模型,研究人员引入了 DrawBench,这是一个全面而具有挑战性的文本到图像模型基准。通过 DrawBench,他们将 Imagen 与包括 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2 在内的最新方法进行比较,发现人工评估者在一对一比较中更喜欢 Imagen,无论是在样本质量还是图像与文本对齐方面。