Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Dokazovatelné a škálovatelné samořízené učení bez heuristik
Komentáře k #PaperADay 3 doporučovaly tento článek jako špičkový JEPA článek a vypadá opravdu mnohem lépe!
Uznávají, že většina předchozího výzkumu JEPA je ad hoc a plná heuristik, ale zde předkládají silná teoretická tvrzení o optimálnosti a poskytují důkazy (které jsem nečetl).
Prvním tvrzením je, že izotropní gaussian je jedinečné optimální rozložení pro lineární i nelineární sondování, minimalizující riziko nejhoršího případu napříč dalšími úkoly. To bych přijal jen s "zní to dobře", ale oni to popisují s detaily a příklady.
Získat izotropní gaussian ve vysokých dimenzích je snazší říct než udělat. Představují Sketched Isotropic Gaussian regularization (SIGReg) jako dobře se chovající ztrátovou funkci, aby toho dosáhli, po analýze několika různých statistických testů a tvrdí, že to poráží kletbu dimenzionality s lineární škálovatelností.
Konečná ztráta je pouze faktor směsi, který váže ztrátu z predikce JEPA oproti ztrátě izotropie SIGReg. Toto je jediný laditelný hyperparametr pro LeJEPA.
Navzdory P v JEPA zde nepoužívají prediktorové sítě, pouze přímo porovnávají zobrazení pro ztrátu JEPA. Prediktorové sítě by mohly být stále užitečné pro video sekvence, zejména pokud jsou podmíněny informacemi o akci agentů / robotů.
Každý tréninkový obraz je rozšířen tak, aby produkoval 2 globální a 6 lokálních pohledů s různými prostorovými měřítky, ale se stejnou sadou barevných a geometrických transformací. Ztráta je průměrná MSE mezi průměrem globálních zobrazení a jednotlivými lokálními zobrazeními zobrazením.
Nemám dobrý pocit z kompromisů v jejich transformacích pohledu, které se stále zdají být spíše ad hoc prostředím, ale určují povahu toho, co se z reprezentace filtruje. Naučit se, co není důležité, je zásadní, ale specifikace "záleží" je v transformacích pohledu pouze implicitní.
LeJEPA je sám o sobě nezávislý na architektuře – lze použít cokoli, co zpracovává dávku vzorků z datové sady do vektorů. Vision transformátory, MLP, ConvNet a podobně. Specifické augmentace zobrazení by byla specifická pro vstupní modalitu, ale algoritmus LeJEPA by mohl pracovat s audiom, obrázky, videem nebo jinými věcmi.
Ukazují, že ztráta LeJEPA na velkém základním modelu velmi dobře ukazuje na výkon následných úkolů, a to jak přímo, tak s heuristikou, která zlepšuje prediktivní sílu ztráty dál.
Také ukazují, že jej lze použít k trénování od začátku na malých datových sadách s pouhými 1000 vzorky a dosáhnout lepších výsledků než při zkoumání konvenčního obecného základního modelu.
Potěšilo mě, že v článku byly ukázkové bloky kódu místo řecky nabitého pseudokódu, stejně jako repozitář na GitHubu.
Příloha D obsahuje zajímavé detaily o generování dobrého pokrytí jednotkových hypersfér s nízkou nesrovnaností pomocí transformace Sobolových sekvencí, ale to platí jen pro jejich teoretickou analýzu a ukazují, že je lepší vytvářet nové náhodné hypervektory každou dávku, přičemž i 16 náhodných vektorů překoná pevnou sadu tisíců.
Několik otázek:...
Top
Hodnocení
Oblíbené
