Loading...

Lumina-mGPT:通过多模态生成预训练,实现逼真高分辨率图像

小野资讯6个月前发布 xxball
2,880 0 0

Lumina-mGPT:通过多模态生成预训练,实现逼真高分辨率图像

摘要

上海 AI 实验室和香港中文大学联合推出了 Lumina-mGPT,这是一款先进的自回归(AR)模型,专门用于从文本生成逼真且高分辨率的图像。该模型采用了多模态生成预训练(mGPT)方法,并通过灵活渐进的监督微调策略,显著提升了图像生成的质量和灵活性。Lumina-mGPT 能够生成1024×1024像素的高分辨率图像,并在多种视觉任务中表现出色。
Lumina-mGPT:通过多模态生成预训练,实现逼真高分辨率图像

主要特点

  1. 多模态生成预训练,支持文本生成高分辨率图像。
  2. 灵活渐进的监督微调策略,从低到高分辨率逐步提升图像质量。
  3. 支持多种任务,包括视觉问答、密集标注和可控图像生成。

技术优势

  1. 解码器-only架构,简便且可扩展。
  2. 无分类器引导技术(CFG),提高生成图像质量。
  3. 使用较少的图像-文本对进行训练,但仍超越现有竞争对手。

应用场景

  1. 视觉内容创作:生成高质量的创意图像。
  2. 智能问答系统:支持基于图像的问答互动。
  3. 广告与设计:在多种视觉任务中应用,为用户提供定制化服务。

相关链接

项目地址

在线试玩地址

© 版权声明

相关文章