Difusão para tudo! Partilhamos uma receita para começar a partir de um VLM autoregressivo pré-treinado e, com muito pouco poder computacional de treino e alguns truques de resfriamento interessantes, transformá-lo num VLM de difusão SOTA. A pesquisa em difusão para linguagem está a progredir muito rapidamente e, na minha opinião, oferece um caminho tão promissor para unificar modalidades como os modelos autoregressivos 'omni'. Trabalho incrível liderado por @mariannearr @ServerProcessor durante o verão.