Lumina-mGPT：通过多模态生成预训练，实现逼真高分辨率图像

小野资讯1年前发布 xxball

Lumina-mGPT：通过多模态生成预训练，实现逼真高分辨率图像

摘要

上海 AI 实验室和香港中文大学联合推出了 Lumina-mGPT，这是一款先进的自回归（AR）模型，专门用于从文本生成逼真且高分辨率的图像。该模型采用了多模态生成预训练（mGPT）方法，并通过灵活渐进的监督微调策略，显著提升了图像生成的质量和灵活性。Lumina-mGPT 能够生成1024×1024像素的高分辨率图像，并在多种视觉任务中表现出色。
Lumina-mGPT：通过多模态生成预训练，实现逼真高分辨率图像

主要特点

多模态生成预训练，支持文本生成高分辨率图像。
灵活渐进的监督微调策略，从低到高分辨率逐步提升图像质量。
支持多种任务，包括视觉问答、密集标注和可控图像生成。

技术优势

解码器-only架构，简便且可扩展。
无分类器引导技术（CFG），提高生成图像质量。
使用较少的图像-文本对进行训练，但仍超越现有竞争对手。

应用场景

视觉内容创作：生成高质量的创意图像。
智能问答系统：支持基于图像的问答互动。
广告与设计：在多种视觉任务中应用，为用户提供定制化服务。

相关链接

– 项目地址

– 在线试玩地址

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

PDF一键转播客！PDF2Audio让文档”开口说话”

PDF一键转播客！PDF2Audio让文档”开口说话”

9个月前

7,8200

字节跳动推出CLASI：高质量端到端语音同步翻译系统

字节跳动推出CLASI：高质量端到端语音同步翻译系统

1年前

9,1900

Mistral AI发布新开发工具：自主优化智能Agents的新平台

Mistral AI发布新开发工具：自主优化智能Agents的新平台

1年前

7,0800

字节跳动推出Seed-Music：音乐创作的革命性工具

字节跳动推出Seed-Music：音乐创作的革命性工具

9个月前

10,2300