Diffusion für alles! Wir teilen ein Rezept, um von einem vortrainierten autoregressiven VLM auszugehen und mit sehr wenig Trainingsrechenleistung und einigen schönen Annealing-Tricks daraus ein SOTA-Diffusions-VLM zu machen. Die Forschung zur Diffusion für Sprache schreitet sehr schnell voran und bietet in meinen Augen einen ebenso vielversprechenden Weg zur Vereinheitlichung von Modalitäten wie die 'omni' autoregressiven Modelle. Erstaunliche Arbeit, geleitet von @mariannearr @ServerProcessor über den Sommer.