DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Esittelemme tutkimusesikatsauksen Self-Flow -menetelmästä: skaalautuva lähestymistapa monimodaalisten generatiivisten mallien kouluttamiseen. Monimodaalinen generointi vaatii päästä päähän -oppimista eri modaliteeteissa: kuva, video, ääni, teksti – ilman ulkoisten mallien rajoittamista esitysoppimisessa. Self-Flow ratkaisee tämän itseohjatulla virtaussovituksella, joka skaalautuu tehokkaasti eri modaliteeteissa. Tulokset: • Jopa 2,8 kertaa nopeampi konvergenssi eri modaliteeteissa. • Parantunut ajallinen johdonmukaisuus videossa • Terävämpi tekstin renderöinti ja typografia Tämä on perustavaa tutkimusta polullemme kohti multimodaalista visuaalista älykkyyttä.

Self-flow parantaa ajallista johdonmukaisuutta videon generoinnissa. 4B-parametrinen monimodaalinen malli, joka on koulutettu 6M-videoilla.

Puhtaampi typografia ja tekstin renderöinti. 4B-parametrinen monimodaalinen malli, joka on koulutettu 200M kuviin.

Yhteinen video-äänituotanto yhdestä mallista (ääni päällä) 4B-parametrinen monimodaalinen malli, joka on koulutettu 2M-audio-videopareille.

Self-flow avaa tien kohti maailmanmalleja: visuaalisen skaalautuvuuden yhdistäminen semanttiseen abstraktioon suunnittelun ja ymmärtämisen kannalta. Tässä on toimintaennuste 675M-parametrimallista.

85

Johtavat

Rankkaus

Suosikit