Lumina-mGPT:通过多模态生成预训练,实现逼真高分辨率图像
摘要
上海 AI 实验室和香港中文大学联合推出了 Lumina-mGPT,这是一款先进的自回归(AR)模型,专门用于从文本生成逼真且高分辨率的图像。该模型采用了多模态生成预训练(mGPT)方法,并通过灵活渐进的监督微调策略,显著提升了图像生成的质量和灵活性。Lumina-mGPT 能够生成1024×1024像素的高分辨率图像,并在多种视觉任务中表现出色。
主要特点
- 多模态生成预训练,支持文本生成高分辨率图像。
- 灵活渐进的监督微调策略,从低到高分辨率逐步提升图像质量。
- 支持多种任务,包括视觉问答、密集标注和可控图像生成。
技术优势
- 解码器-only架构,简便且可扩展。
- 无分类器引导技术(CFG),提高生成图像质量。
- 使用较少的图像-文本对进行训练,但仍超越现有竞争对手。
应用场景
- 视觉内容创作:生成高质量的创意图像。
- 智能问答系统:支持基于图像的问答互动。
- 广告与设计:在多种视觉任务中应用,为用户提供定制化服务。
相关链接
– 项目地址
– 在线试玩地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。