Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (toivon, että upotetut linkit menettävät tehoa tarpeeksi, ettei kovin moni ärsyyntyisi tästä sisällöstä)
@ylecun on ollut viime aikoina ajankohtainen, joten tänään kävin läpi:
Itseohjattu oppiminen kuvista joint-embedding predictive architecture -arkkitehtuurilla
Olen laajasti samaa mieltä siitä, että tärkeät ennusteet koskevat sisäisiä esityksiä, eivät pikseleitä, joten generatiiviset mallit voivat olla jonkin verran haitallisia tai ainakin tarpeettoman tehottomia monissa tehtävissä.
Kuitenkin ajattelen, että sisäinen ennuste tapahtuu yksityiskohtaisemmalla tasolla kuin täysi kuvankäsittely, minikolonnassa tai jopa hermotasolla, ja siinä on enemmän ajallinen komponentti kuin paikallinen peittäminen.
Itseohjattu koulutus perustuu suureen aineistoon ilman aavistustakaan, mitä mallilta myöhemmin kysytään, vaan vain kerää tietoa datasta. Tämän jälkeen voit kouluttaa yksinkertaisen lineaarisen luokittelijan (lineaarisen anturin) ulostulolle ja saada varsin hyvän suorituskyvyn. Parhaat lineaariset anturit jäädytetyissä itseohjatuissa malleissa eivät ole yhtä vahvoja kuin päästä päähän -koulutetut luokittelijat, mutta täsmälleen sama SSM voi olla tehokas moniin eri tehtäviin samanaikaisesti.
Artikkelissa todetaan, että toisin kuin JEPA:ssa, invarianssipohjaiset koulutusmenetelmät, jotka ottavat saman kuvan ja täydentävät sitä kahdella eri tavalla säilyttäen edustuksellisen samankaltaisuuden, saavuttavat suorituskykynsä tutkijan puolueellisen kuvanlaajennuksen kustannuksella, joka ei siirry muihin muotoihin, kuten ääneen tai tekstiin. Huomaan, että JEPA on hyvin herkkä täsmälleen tehdylle maskaukselle (taulukko 6), mikä ei tunnu kovin erilaiselta.
Kohdekooderi on pinnallisesti samankaltainen kuin nykyinen kohdemallin muotoilu DQN RL -verkoissa, jossa painojen EMA satunnaisen kopion sijaan on olemassa, mutta vaikka se oli vakausapu RL:lle (eikä aina ole tarpeen), sillä on tässä perustavanlaatuisempi tarkoitus: estää mallia romahtamasta representaatioita yksinkertaisiksi ennustettaviksi. Tämä, samoin kuin LayerNormin olennainen osa tätä, ei ole kirjoituksessa selitetty, ja jouduin etsimään viittauksia siihen muualta.
On vähän erikoista, että kontekstiin sovelletaan satunnaista 0.85-1.0 rajausta, mutta poistetaan vain oikealta ja alhaalta palikoita. Odotin näkeväni tuon sadon ablaation.
Kuvan resoluution nostaminen on hieman outo tapa skaalata mallia. Todennäköisesti ei oikeastaan ole resoluutio, joka auttaa, vaan päivitysten kokonaismäärä.
Itsevalvonnasta on tehty laaja tutkimus, johon olen vain etäisesti perehtynyt, joten minulta jää todennäköisesti huomaamatta joitakin keskeisiä JEPA:n erottuvia piirteitä. Kamppailen yhä ydinkysymyksen kanssa siitä, mitä kontekstit tarkalleen oppivat ja miten malliarkkitehtuuri ja koulutus ohjaavat sitä pois romahtamisesta.
Johtavat
Rankkaus
Suosikit
