Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Dowodzone i skalowalne uczenie samonadzorowane bez heurystyk
Komentarze do #PaperADay 3 polecały ten artykuł jako najlepszy w dziedzinie JEPA, i rzeczywiście wygląda znacznie lepiej!
Zauważają, że wiele wcześniejszych badań nad JEPA jest ad-hoc i pełne heurystyk, ale tutaj przedstawiają silne teoretyczne twierdzenia o optymalności i dostarczają dowody (których nie czytałem).
Pierwsze twierdzenie mówi, że izotropowy rozkład gaussowski jest unikalnym optymalnym rozkładem osadzenia zarówno dla liniowego, jak i nieliniowego badania, minimalizując ryzyko w najgorszym przypadku w zadaniach downstream. Przyjąłbym to na wiarę z jedynie „brzmi dobrze dla mnie”, ale oni wchodzą w szczegóły i przykłady.
Rzeczywiste uzyskanie izotropowego rozkładu gaussowskiego w wysokich wymiarach jest łatwiejsze do powiedzenia niż zrobienia. Prezentują Sketched Isotropic Gaussian Regularization (SIGReg) jako dobrze zachowującą się funkcję straty, aby to osiągnąć po przeanalizowaniu różnych testów statystycznych, i twierdzą, że pokonuje to klątwę wymiarowości z liniową skalowalnością.
Ostateczna strata to po prostu czynnik mieszający, który waży stratę przewidywania JEPA w stosunku do straty izotropowości SIGReg. To jest jeden regulowany hiperparametr dla LeJEPA.
Pomimo P w JEPA, nie używają tutaj sieci predykcyjnych, po prostu bezpośrednio porównują osadzenia widoków dla straty JEPA. Sieci predykcyjne mogą być nadal przydatne dla sekwencji wideo, szczególnie gdy są warunkowane informacjami o akcjach dla agentów / robotów.
Każdy obraz treningowy jest augmentowany, aby uzyskać 2 globalne widoki i 6 lokalnych widoków z różnymi skalami przestrzennymi, ale tymi samymi zestawami transformacji kolorów i geometrycznych. Strata to średni MSE między średnią globalnych osadzeń widoków a każdym z lokalnych osadzeń widoków.
Nie mam dobrego wyczucia dla kompromisów w ich transformacjach widoków, które wciąż wydają się bardzo ad-hoc, ale będą one określać naturę tego, co zostanie odfiltrowane z reprezentacji. Uczenie się, co nie ma znaczenia, jest kluczowe, ale specyfikacja „co ma znaczenie” jest tylko domniemana w transformacjach widoków.
LeJEPA jest niezależna od architektury – wszystko, co przetwarza partię próbek z zestawu danych na wektory, może być użyte. Transformery wizji, MLP, ConvNets itd. Konkretne augmentacje dla widoków byłyby specyficzne dla modalności wejściowej, ale algorytm LeJEPA mógłby działać na dźwięku, obrazach, wideo lub innych rzeczach.
Pokazują, że strata LeJEPA na dużym modelu bazowym jest bardzo wskazująca na wydajność zadań downstream, zarówno bezpośrednio, jak i z heurystyką, aby poprawić moc predykcyjną straty dalej.
Pokazują również, że można go używać do trenowania od zera na małych zestawach danych z tak małą liczbą jak 1000 próbek i osiągnąć lepsze wyniki niż badanie konwencjonalnego ogólnego modelu bazowego.
Cieszyłem się, że w artykule znalazłem przykłady kodu zamiast pseudokodu pełnego greckich terminów, a także repozytorium na githubie.
Dodatek D zawiera interesujące szczegóły dotyczące generowania dobrej pokrywy jednostkowych hipersfer z próbkami o niskiej dyskrepancji poprzez transformację sekwencji Sobola, ale to jest tylko dla ich analizy teoretycznej, i pokazują, że lepiej jest po prostu tworzyć nowe losowe hipervektory co partię, przy czym nawet 16 losowych wektorów przewyższa stały zestaw tysięcy.
...
Najlepsze
Ranking
Ulubione
