Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA : Apprentissage auto-supervisé prouvable et évolutif sans heuristiques
Les commentaires sur #PaperADay 3 ont recommandé cet article comme étant l'état de l'art des articles JEPA, et il semble en effet beaucoup mieux !
Ils reconnaissent qu'une grande partie des recherches antérieures sur JEPA est ad hoc et pleine d'heuristiques, mais ici, ils font de fortes affirmations théoriques d'optimalité et fournissent des preuves (que je n'ai pas lues).
La première affirmation est que la gaussienne isotrope est la distribution d'embedding optimale unique pour les sondages linéaires et non linéaires, minimisant le risque dans le pire des cas à travers les tâches en aval. J'aurais pris cela pour acquis avec juste un "ça me semble bien", mais ils l'expliquent avec des détails et des exemples.
Obtenir réellement une gaussienne isotrope en haute dimension est plus facile à dire qu'à faire. Ils présentent la Régularisation de Gaussienne Isotrope Ébauchée (SIGReg) comme une fonction de perte bien comportée pour y parvenir après avoir analysé un certain nombre de tests statistiques différents, et ils affirment qu'elle surmonte la malédiction de la dimensionnalité avec une évolutivité linéaire.
La perte finale est juste un facteur de mélange pour pondérer la perte de prédiction JEPA par rapport à la perte d'isotropie SIGReg. C'est le seul hyperparamètre réglable pour LeJEPA.
Malgré le P dans JEPA, ils n'utilisent pas de réseaux de prédiction ici, ils comparent simplement directement les embeddings de vue pour la perte JEPA. Les réseaux de prédiction pourraient encore être utiles pour les séquences vidéo, surtout lorsqu'ils sont conditionnés avec des informations d'action pour les agents / robots.
Chaque image d'entraînement est augmentée pour produire 2 vues globales et 6 vues locales avec différentes échelles spatiales mais le même ensemble de transformations de couleur et géométriques. La perte est la MSE moyenne entre la moyenne des embeddings de vue globale et chacun des embeddings de vue locale.
Je n'ai pas une bonne idée des compromis dans leurs transformations de vue, qui semblent encore très ad hoc, mais elles détermineront la nature de ce qui est filtré de la représentation. Apprendre ce qui n'a pas d'importance est critique, mais la spécification de ce qui "importe" est seulement implicite dans les transformations de vue.
LeJEPA lui-même est indépendant de l'architecture – tout ce qui digère un lot d'échantillons d'un ensemble de données en vecteurs peut être utilisé. Transformateurs de vision, MLP, ConvNets, etc. Les augmentations spécifiques pour les vues seraient spécifiques à la modalité d'entrée, mais l'algorithme LeJEPA pourrait fonctionner sur l'audio, les images, la vidéo ou d'autres choses.
Ils montrent que la perte LeJEPA sur un grand modèle de base est très indicative de la performance des tâches en aval, à la fois directement et avec une heuristique pour améliorer le pouvoir prédictif de la perte davantage.
Ils montrent également qu'il peut être utilisé pour s'entraîner à partir de zéro sur de petits ensembles de données avec aussi peu que 1000 échantillons et obtenir de meilleurs résultats que de sonder un modèle de base général conventionnel.
J'ai été ravi de voir des blocs de code d'exemple dans l'article au lieu de pseudocode chargé de grec, ainsi qu'un dépôt github.
L'Annexe D contient des détails intéressants sur la génération d'une bonne couverture des hypersphères unitaires avec des échantillons à faible discrépance en transformant des séquences de Sobol, mais cela n'est que pour leur analyse théorique, et ils montrent qu'il vaut mieux simplement créer de nouveaux hypervecteurs aléatoires à chaque lot, même 16 vecteurs aléatoires surpassant un ensemble fixe de milliers.
...
Meilleurs
Classement
Favoris
