Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kami menyajikan pratinjau penelitian Self-Flow: pendekatan yang dapat diskalakan untuk melatih model generatif multi-modal.
Generasi multi-modal membutuhkan pembelajaran end-to-end di seluruh modalitas: gambar, video, audio, teks - tanpa dibatasi oleh model eksternal untuk pembelajaran representasi. Self-Flow mengatasi hal ini dengan pencocokan alur yang diawasi sendiri yang diskalakan secara efisien di seluruh modalitas.
Hasil:
• Konvergensi hingga 2,8x lebih cepat di seluruh modalitas.
• Peningkatan konsistensi temporal dalam video
• Rendering teks dan tipografi yang lebih tajam
Ini adalah penelitian dasar untuk jalan kita menuju kecerdasan visual multimodal.

Self-Flow meningkatkan konsistensi temporal dalam pembuatan video.
Model multi-modal parameter 4B dilatih pada video 6M.
Tipografi dan rendering teks yang lebih bersih.
Model multi-modal parameter 4B dilatih pada 200 juta gambar.


Pembuatan video-audio bersama dari satu model (suara aktif)
Model multi-moda parameter 4B dilatih pada pasangan audio-video 2M.
Self-Flow membuka jalan menuju model dunia: menggabungkan skalabilitas visual dengan abstraksi semantik untuk perencanaan dan pemahaman.
Berikut adalah prediksi tindakan dari model parameter 675 juta.
73
Teratas
Peringkat
Favorit
