统一模型:BAGEL
论文标题:Emerging Properties in Unified Multimodal Pretraining
论文链接:https://arxiv.org/pdf/2505.14683
GitHub:https://github.com/bytedance-seed/BAGEL
Project主页:https://bagel-ai.org/
引言
Scalable Generative Cognitive Model (BAGEL,后称Bagel) 是25年的一篇统一模型(Unified Model),同时支持多模态理解和生成的开源基础模型。Bagel在通过从videos和web数据中构建了大量的interleaved数据,并在T级Token数据上训练,在多模态理解,生成和编辑任务中展现强大能力。可以简单可以将这个工作是基于复用了Qwen2.5的LLM理解能力,然后重新0构建构建生成模式(from scratch)。
下面主要从模型,数据,训练顺序开始讲述。
模型
Bagel模型主要基于Qwen2.5(LLM)语言模型,利用其对离散化token同时进行理解和生成的建模,进一步提出了Mixture-of-Transformer-Experts(MoT)训练结构支持理解和生成能力联合性能。如下图所示:
MoT结构这里简单可以理解为一种进阶版的MoE结构,不仅对FFN进行拷贝,而是对所有层进行拷贝,包括LayerNorm,QKV,FFN等都进行拷贝,因此模型基于7B的LLM,但是实际参数却有14B左右。其主要的特征交互发生在 Muti-modal Self Attention (Qwen2.5 decoder-only Layer中)模块中。实验结果进一步表明,对于理解与生成任务而言,在同一个 backbone 上进行联合优化仍然存在一定挑战;相比之下,采用不同backbone 分别建模两类任务能够取得更优效果(MoT在显示生成理解模型中效果更好)。简而言之,为多模态理解和生成分配单独的能力可以减轻由于竞争模态特定学习目标而产生的优化挑战。如下图实验结果所示:
理解侧
理解分支主要由一个ViT(主要是用的是SigLIP模型),然后使用一个两层的MLP来将ViT的图像特征纬度对齐LLM隐藏层纬度。MoT的理解侧这部分主要是处理获取多模态的(图像/文本)特征进行交互建模,主要处理图像,文本tokens。
生成侧
生成分支有一个预训练的VAE 编码器(直接FLUX中的VAE),将图像特征编码到特征纬度,然后通过线性映射到LLM隐藏层纬度,然后通过MoT进行生成侧的建模后再使用一个线性映射回VAE空间。
特别的在生成过程中,则使用了一个Clean VAE tokens和Noised VAE tokens进行处理优化,在一般的生成任务中,Noised VAE tokens则通过MoT生成侧,文本tokens则使用MoT理解侧建模,然后其在Attention层进行交互学习和建模。
数据
数据部分主要从文本数据,理解数据和生成数据出发进行构建。Bagel做了大量数据上的工作,包含数据过滤,数据构建(主要构建Interleaved数据从视频数据和web数据源)。
Interleaved 数据构建
分别从视频数据和web数据构建了Interleaved的数据:
- 通过预处理和过滤原始视频来构建交错的视频数据,然后利用从大型视觉语言模型有限输出中蒸馏出的小型视觉语言模型生成具有时间基准的说明文字。
- 对于网络数据,基于 OmniCorpus构建,并执行两阶段的主题选择,随后进行质量过滤和说明文字生成,以生成结构化的序列。两个数据流的示例数据均已展示。
Reasoning-Augmented的数据
Bagel对于生成和编辑任务构建更多更多带有推理的数据:
-
T2I生成:Bagel首先人工构建一组简短且语义模糊的文本到图像(T2I)查询,每个查询均配以简单的生成指导。利用上下文学习(in-context learning),采用Qwen2.5-72B模型输入提示,使其生成更多查询-指导对及对应的详细提示词,再将这些提示词输入FLUX.1-dev模型生成目标图像。
-
自由形式编辑:通过向视觉语言模型输入源图像、目标图像、用户查询,以及一条来自DeepSeek-R1模型的推理轨迹示例,生成具备推理增强能力的样本。
-
概念性编辑:概念性编辑面向需高层次概念推理而非局部像素调整的图像编辑任务,例如将实物图像转换为设计草图。针对此类任务,采用网络交错数据集(web interleaved dataset),从各图像序列中采样候选图像对,并通过三阶段VLM流水线构建高质量问答样本。
训练
训练阶段分为4个阶段,分别为Alignment,Pre-training(PT),Continued Training(CT)还有Supervised Fine-tuning(SFT)阶段。
-
Alignment阶段:这一阶段主要是对齐图像和文本特征主要在I2T数据上训练,主要训练理解侧的LLM和ViT的connector(两层MLP),这部分主要在一个低分辨率的数据上进行对齐,因为对齐SigLIP的初始分辨率。
-
PT阶段:这一阶段主要是为了提高T2I生成能力(因为生成部分是从0开始训练的,需要对生成的部分去进一步训练生成backbone)还有参入了一些理解数据提升理解侧的推理能力,。
-
CT阶段:这一阶段进一步训练,进一步扩充更高分辨率的生成数据,同时提高Timestep的比例,采样更多的高Noise区域(可能生成效果还不是很好,需要进一步调优),包括采用更高分辨率的图像去理解。
-
SFT阶段:这一阶段进一步在更精细的数据中进行微调。
实验
在理解能力方面:相比于仅理解的模型,Bagel主要从LLM出发构建的,这种出效果相比于接近Qwen2.5-VL系列的模型效果;在Unified model上,相比于其他模型,大大提升了其理解性能。
在生成能力上:其中对于很多任务其实效果挺好的。
在图像编辑任务中,虽然追不上闭源的GPT-4o模型,但是在这种训练成本下可能是比较优秀的编辑能力了。
总结
总体而言,Bagel 设计了一种有效的架构:它以理解型 LLM 为基础,重新构建了从无到有的视觉生成能力。在联合建模过程中,尽管理解与生成模块尚未实现权重层面的完全共享,但通过 Attention 层面的特征交互,Bagel 已经能够在统一框架下同时支持生成与理解任务。当然,在任务划分、理解与生成能力的进一步解耦与协同等方面,Bagel 仍存在一些尚未充分探索的问题,而这些问题本身也具有较高难度。尽管如此,该工作已经提供了重要的参考价值和方法贡献,也为后续在其他领域中开展同时需要理解与生成能力的任务奠定了良好基础。
