Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi presenterer en forskningsforhåndsvisning av Self-Flow: en skalerbar tilnærming for trening av multimodale generative modeller.
Multimodal generering krever ende-til-ende-læring på tvers av modaliteter: bilde, video, lyd, tekst – uten å være begrenset av eksterne modeller for representasjonslæring. Selvflyt adresserer dette med selvovervåket flytmatching som skalerer effektivt på tvers av modaliteter.
Resultater:
• Opptil 2,8 ganger raskere konvergens mellom modaliteter.
• Forbedret tidsmessig konsistens i video
• Skarpere tekstgjengivelse og typografi
Dette er grunnleggende forskning for vår vei mot multimodal visuell intelligens.

Selvflyt forbedrer tidsmessig konsistens i videogenerering.
4B parameter multimodal modell trent på 6M videoer.
Renere typografi og tekstgjengivelse.
4B parameter multimodal modell trent på 200 millioner bilder.


Felles video-lyd-generering fra en enkelt modell (lyd på)
4B parameter multimodal modell trent på 2M lyd-video-par.
Selvflyt åpner en vei mot verdensmodeller: ved å kombinere visuell skalerbarhet med semantisk abstraksjon for planlegging og forståelse.
Her er handlingsprediksjon fra en 675M-parametermodell.
72
Topp
Rangering
Favoritter
