DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Hari ini kami membagikan pekerjaan penelitian pertama kami yang mengeksplorasi difusi untuk model bahasa: Model Bahasa Visi Autoregresif-ke-Difusi Kami mengembangkan model bahasa penglihatan difusi yang canggih, Autoregressive-to-Diffusion (A2D), dengan mengadaptasi model bahasa penglihatan autoregresif yang ada untuk decoding difusi paralel. Pendekatan kami memudahkan untuk membuka kunci trade-off kualitas kecepatan dari model bahasa difusi tanpa pelatihan dari awal, dengan memanfaatkan model regresif otomatis yang telah dilatih sebelumnya.

Model bahasa Visi Standar (VLM) beralasan tentang gambar dan video melalui bahasa, mendukung berbagai aplikasi mulai dari teks gambar hingga jawaban pertanyaan visual. VLM regresif otomatis menghasilkan token secara berurutan, yang mencegah paralelisasi dan membatasi throughput inferensi. Dekoder difusi muncul sebagai alternatif yang menjanjikan untuk dekoder regresif otomatis di VLM dengan memungkinkan pembuatan token paralel untuk inferensi yang lebih cepat.

Kami melatih VLM difusi canggih, A2D-VL 7B untuk pembuatan paralel dengan menyempurnakan VLM regresif otomatis yang ada pada tugas pemodelan bahasa difusi, menggunakan kerangka kerja difusi bertopeng yang "bersuara" token dengan menutupinya dan "menghilangkan kebisingan" token dengan memprediksi token asli. Kami mengembangkan teknik adaptasi baru yang secara bertahap meningkatkan kesulitan tugas selama penyempurnaan untuk transisi dengan lancar dari decoding berurutan ke paralel sambil tetap mempertahankan kemampuan model dasar, dengan anil ukuran blok dan tingkat kebisingan.

A2D-VL mengungguli VLM difusi sebelumnya dalam menjawab pertanyaan visual sambil membutuhkan komputasi pelatihan yang jauh lebih sedikit. Teknik adaptasi baru kami sangat penting untuk mempertahankan kemampuan model, yang akhirnya memungkinkan konversi VLM autoregresif canggih ke difusi dengan dampak minimal terhadap kualitas.

Pekerjaan ini merupakan langkah menuju tujuan kami untuk menyatukan pemahaman dan generasi multimoda untuk membangun simulator multimoda dunia. Pelajari lebih lanjut:

93,93K

Teratas

Peringkat

Favorit