MoE-er holder seg utmerket for enhetlig multimodal pre-traning