来自港大和字节的研究人员,提出了基于自回归模型Llama的图像生成方法。
目前该模型已经开源,并在GitHub斩获了近900颗星标。
研究团队将目标设定成了推出开源版的基于自回归图像生成模型。
针对现有的先进的图像生成模型,作者总结出其成功的三点关键设计:
- 图像压缩/量化器(Image Compressors/Tokenizers)
- 可scale up的图像生成模型(Scalable Image generation models)
- 高质量的训练数据(High-quality Training Data)
当输入更长的文本时,LlamaGen也可以生成兼具图文对齐与视觉质量的图像。
目前该项目已经开源,而且还支持在线体验,感兴趣的话不妨一试。
在线体验:
相关导航
暂无评论...