🙌 LLM 任意對任意的世界歡迎 Ming-flash-omni-preview,擁有強大的 103B-A9B 架構,通過稀疏 MoE 提高了效率。它為開源全模態性能在理解和生成方面建立了新的基準: 1. 可控圖像生成:引入生成分割作為編輯,實現精確的像素級控制。該模型在 GenEval 基準上達到了 *0.90* 的分數。 2. 流媒體視頻理解:增強了詳細和無縫的音視覺理解能力。 3. 方言識別:在中文方言 ASR 中達到 SOTA 性能,展示了在多種方言(如湖南話、廣東話和閩南話)中的熟練度。 #OpenSourceModels