统一模型:LLaDA2.0-Uni
论文标题:LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
论文链接:https://arxiv.org/abs/2604.20796
GitHub:https://github.com/inclusionAI/LLaDA2.0-Uni
HuggingFace:https://huggingface.co/inclusionAI/LLaDA2.0-Uni
引言
最近蚂蚁Inclusion AI发布了一篇统一模型(Unified Model)相关工作LLaDA2.0-Uni。从现有一些统一模型结构出发:例如MmaDA,Lumina-DiMOO,因为引入VQ-VAE做生成不可避免地降低了模型的理解能力。而Bagal系列这条路线从两条不同编码器分别处理理解和生成任务又为联合目标优化带来挑战。
因此,LLaDA2.0-Uni尝试探索一条统一的离散生成扩散LLM(dLLM),使用完全离散的语义tokens进行理解和生成的路线。其中,主要包含一个离散化的tokenizer,一个MoE-based dLLM框架,和一个扩散decoder。如下图所示:
LLaDA2.0-Uni
以下主要从模型,数据,训练策略等方面分别介绍(主要对比Bagal系列架构):
模型
相比于Bagal系列主要的区别在于Bagal是基于Qwen2.5作为语言LLM,而LLaDA2.0-Uni则是从扩散语言模型dLLM出发探索了理解和生成统一的结构。
| 模型名称 | LLM | 视觉Encoder | Diffusion Decoder |
|---|---|---|---|
| Bagal | Qwen2.5 LLM | SigLIP2 | VAE from FLUX |
| LLaDA2.0-Uni | LLaDA-2.0-mini dLLM | SigLIP-VQ | Z-Image-Base |
这个统一结构中最重要的就是给dLLM中加入视觉信息:扩展了原始dLLM词汇表,添加了SigLIP-VQ编码的视觉token,以及一组用于图像生成和理解的自定义特殊token。
额外LLaDA2.0-Uni在训练推理方面做了加速,采用SPRINT方法,将生成过程分成多个 block,在每个block只做一次完整的计算,然后构建一个”精简版的前缀”pruned prefix KV cach。这种方法只保存重要的token,有效降低二次denoise开始带来的推理时间。
数据
LLaDA2.0-Uni按照任务分成了理解数据,生成数据。而在三个不同阶段(S0,S1,S2)用到了不同的数据:
第一阶段:主要为了对齐图像和文本,使用图文对数据(理解:Captioning任务;生成:t2i任务),以及混合一些文本数据。
第二阶段:为了提升更多任务上的能力,在理解和生成都加入了更多任务进行训练(理解:Captioning、OCR、Grounding、Counting、Video相关任务、多模态的VQA任务;生成:t2i,图像编辑,以及图文交错生成)
第三阶段:为了进一步提升模型的生成和理解能力,采用更高质量更高分辨率的理解推理和生成推理增强的数据。
LLaDA2.0-Uni数据训练数据在290B左右,而Bagal训练数据则是大概在5.1T左右数据。(实际上,Bagal则在生成数据方面占比大)
LLaDA2.0-Uni提供了一个Interleaved数据处理的pipeline,包括数据源、数据筛选,和数据标注细节,如图所示:
训练策略
同数据部分LLaDA2.0-Uni在训练阶段如上面表格所示采用三阶段训练方式(未给出具体关键训练参数):
第一阶段:视觉-语言对齐。
第二阶段:多任务Pretraining。
第三阶段:SFT。
在Infra上做了一些优化:(1)离线做了图像编码,离线生成好SigLIP-VQ视觉特征。(2)离线做batch数据的packing。
损失函数可以参考Block Diffusion Language Model (BDLM)的BDLM Loss。
实验
理解任务上看,LLaDA2.0-Uni接近Qwen2.5的水平,统一模型中打败了一些模型如InternVL-U等模型;但是相比于Bagal,在大部分任务上Bagal还是要好一些。
生成任务上指标上要比很多模型要好。
总结
总体而言,LLaDA2.0-Uni 基于 dLLM 路线探索统一理解与生成任务的建模框架,实验结果表明该方法在多任务统一建模方面具备一定潜力和竞争力。然而,从具体任务表现来看,在单一的生成或理解场景中,其性能仍不及采用 Bagal 策略的模型,说明当前统一范式在任务专精能力上仍存在一定差距,尚有进一步优化空间。在一些数据使用上和训练策略上提供了一定参考价值。
