超越扩散模型!自回归范式在图像生成领域再次被验证—— 中科大、哈工大、度小满等机构提出通用文生图模型STAR。 仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模型的性能。
自回归通用文生图模型STAR 扩散模由于其高质量和多元的生成,一度在文生图领域占有主导地位。
它通过逐步的去噪过程,为图像生成提供了更强的稳定性和可控性,然而也导致生成过程极其耗时。 而自回归模型的潜力,在受到大语言模型启发下,开始在这一领域逐渐被探索。 比如VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题,重新为视觉生成定义了新的自回归范式,从而使得生成的图像具有更高的真实度,不过仍然有很多局限,性能仍落后于扩散模型。
相关导航
暂无评论...