Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (sperando che i link incorporati riducano abbastanza la visibilità in modo che non troppe persone siano infastidite da questo contenuto)
@ylecun è stato molto attuale recentemente, quindi oggi ho esaminato:
Apprendimento Auto-Supervisionato da Immagini con un'Architettura Predittiva a Embedding Congiunto
Sono ampiamente d'accordo con l'idea che le previsioni importanti riguardino le rappresentazioni interne, non i pixel, quindi i modelli generativi possono essere in qualche modo controproducenti, o almeno inutilmente inefficienti per molti compiti.
Tuttavia, tendo a pensare che la previsione interna debba avvenire a un livello più granulare rispetto all'elaborazione dell'immagine completa, a livello di minicolonna o addirittura neurale, e con un componente temporale maggiore rispetto al mascheramento locale.
L'addestramento auto-supervisionato funziona su un ampio dataset senza sapere cosa verrà chiesto al modello in seguito, costruendo semplicemente conoscenza dai dati. Successivamente, puoi addestrare un semplice classificatore lineare (sonda lineare) sull'output e ottenere prestazioni piuttosto buone. Le migliori sonde lineari su modelli auto-supervisionati congelati non sono forti come i classificatori addestrati end-to-end, ma lo stesso SSM può essere forte per molti compiti diversi contemporaneamente.
Il documento osserva che, a differenza di JEPA, i metodi di addestramento basati sull'invarianza che prendono la stessa immagine e la aumentano in due modi diversi mantenendo la similarità rappresentativa ottengono le loro prestazioni a spese di un insieme di aumentazioni di immagini biasato dal ricercatore, che non si trasferisce ad altre modalità come audio o testo. Osservo che JEPA è molto sensibile al mascheramento esatto eseguito (tabella 6), che non sembra troppo diverso.
L'encoder target è superficialmente simile alla formulazione moderna del modello target nelle reti DQN RL con una EMA dei pesi invece di una copia occasionale, ma mentre era un aiuto alla stabilità per RL (e non è sempre necessario), ha uno scopo più fondamentale qui per prevenire che il modello collassi le rappresentazioni in quelle triviali da prevedere. Questo, insieme al LayerNorm che è anche un elemento cruciale di ciò, non è specificato nel documento, e ho dovuto trovare riferimenti altrove.
È un po' strano che applichino un ritaglio casuale da 0.85 a 1.0 al contesto, ma rimuovano solo blocchi da destra e in basso. Mi aspettavo di vedere un'ablazione di quel ritaglio.
Aumentare la risoluzione dell'immagine è un modo un po' strano per scalare il modello. Probabilmente non è realmente la risoluzione ad aiutare, ma il numero totale di patch.
C'è un ampio corpo di lavoro sull'auto-supervisione di cui ho solo una vaga familiarità, quindi probabilmente mi sfuggono alcuni aspetti distintivi chiave di JEPA. Sto ancora lottando con la domanda centrale di cosa apprendano esattamente i contesti e come l'architettura del modello e l'addestramento lo guidino lontano dal collasso.
Principali
Ranking
Preferiti
