Esittelemme tutkimusesikatsauksen Self-Flow -menetelmästä: skaalautuva lähestymistapa monimodaalisten generatiivisten mallien kouluttamiseen. Monimodaalinen generointi vaatii päästä päähän -oppimista eri modaliteeteissa: kuva, video, ääni, teksti – ilman ulkoisten mallien rajoittamista esitysoppimisessa. Self-Flow ratkaisee tämän itseohjatulla virtaussovituksella, joka skaalautuu tehokkaasti eri modaliteeteissa. Tulokset: • Jopa 2,8 kertaa nopeampi konvergenssi eri modaliteeteissa. • Parantunut ajallinen johdonmukaisuus videossa • Terävämpi tekstin renderöinti ja typografia Tämä on perustavaa tutkimusta polullemme kohti multimodaalista visuaalista älykkyyttä.
Self-flow parantaa ajallista johdonmukaisuutta videon generoinnissa. 4B-parametrinen monimodaalinen malli, joka on koulutettu 6M-videoilla.
Puhtaampi typografia ja tekstin renderöinti. 4B-parametrinen monimodaalinen malli, joka on koulutettu 200M kuviin.
Yhteinen video-äänituotanto yhdestä mallista (ääni päällä) 4B-parametrinen monimodaalinen malli, joka on koulutettu 2M-audio-videopareille.
Self-flow avaa tien kohti maailmanmalleja: visuaalisen skaalautuvuuden yhdistäminen semanttiseen abstraktioon suunnittelun ja ymmärtämisen kannalta. Tässä on toimintaennuste 675M-parametrimallista.
85