在本文中,介绍了PixArt-∑,一种能够直接生成4K分辨率图像的扩散变换器模型(DiT)。PixArt-∑比其前身PixArt-α有了显著的进步,提供了明显更高保真度的图像,并改进了与文本提示的对齐。PixArt-∑的一个关键特征是它的训练效率。利用PixArt-α的基础预训练,它通过结合更高质量的数据,从“较弱”的基线演变为“更强”的模型,称之为“弱到强训练”。
PixArt-∑的进步有两个方面:
(1)高质量训练数据:PixArt-∑融合了高质量的图像数据,并配有更精确、更详细的图像caption。
(2) 高效的令牌压缩:在DiT框架内提出了一种新的注意力模块,它可以压缩密钥和值,显著提高效率并促进超高分辨率图像的生成。得益于这些改进,PixArt-∑实现了卓越的图像质量和用户提示遵守能力,其模型大小(0.6B参数)明显小于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数)。此外,PixArt-∑生成4K图像的能力支持高分辨率海报和壁纸的创建,有效地支持电影和游戏等行业高质量视觉内容的生产。