Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Aprendizaje auto-supervisado demostrable y escalable sin heurísticas
Los comentarios sobre #PaperADay 3 recomendaron este artículo como el mejor en su clase sobre JEPA, ¡y parece mucho mejor!
Reconocen que gran parte de la investigación previa sobre JEPA es ad-hoc y está llena de heurísticas, pero aquí hacen fuertes afirmaciones teóricas de optimalidad y proporcionan pruebas (que no leí).
La primera afirmación es que la gaussiana isotrópica es la única distribución de incrustación óptima tanto para la sonda lineal como para la no lineal, minimizando el riesgo en el peor de los casos en las tareas posteriores. Lo habría aceptado por fe con solo un "me suena bien", pero lo explican con detalles y ejemplos.
De hecho, obtener una gaussiana isotrópica en altas dimensiones es más fácil decirlo que hacerlo. Presentan la Regularización Gaussiana Isotrópica Esquemática (SIGReg) como una función de pérdida bien comportada para lograr esto después de analizar una serie de pruebas estadísticas diferentes, y afirman que supera la maldición de la dimensionalidad con escalabilidad lineal.
La pérdida final es solo un factor de mezcla para ponderar la pérdida de predicción de JEPA contra la pérdida de isotropía de SIGReg. Este es el único hiperparámetro ajustable para LeJEPA.
A pesar de la P en JEPA, no utilizan redes de predicción aquí, simplemente comparan directamente las incrustaciones de vista para la pérdida de JEPA. Las redes de predicción aún podrían ser útiles para secuencias de video, especialmente cuando se condicionan con información de acción para agentes / robots.
Cada imagen de entrenamiento se augments para producir 2 vistas globales y 6 vistas locales con diferentes escalas espaciales pero el mismo conjunto de transformaciones de color y geométricas. La pérdida es el MSE promedio entre el promedio de las incrustaciones de vista global y cada una de las incrustaciones de vista local.
No tengo una buena sensación sobre los compromisos en sus transformaciones de vista, que aún parecen estar muy en el espacio ad-hoc, pero determinarán la naturaleza de lo que se filtra de la representación. Aprender lo que no importa es crítico, pero la especificación de lo que "importa" es solo implícita en las transformaciones de vista.
LeJEPA en sí es independiente de la arquitectura: cualquier cosa que digiera un lote de muestras de un conjunto de datos en vectores puede ser utilizada. Transformadores de visión, MLP, ConvNets, etc. Las augmentaciones específicas para las vistas serían específicas del modo de entrada, pero el algoritmo LeJEPA podría funcionar en audio, imágenes, video u otras cosas.
Muestran que la pérdida de LeJEPA en un gran modelo base es muy indicativa del rendimiento en tareas posteriores, tanto directamente como con una heurística para mejorar el poder predictivo de la pérdida más allá.
También muestran que se puede usar para entrenar desde cero en conjuntos de datos pequeños con tan solo 1000 muestras y lograr mejores resultados que sondear un modelo base general convencional.
Me complació ver bloques de código de muestra en el artículo en lugar de pseudocódigo lleno de griego, así como un repositorio de github.
El Apéndice D tiene detalles interesantes sobre cómo generar una buena cobertura de hiperesferas unitarias con muestras de baja discrepancia transformando secuencias de Sobol, pero esto es solo para su análisis teórico, y muestran que es mejor simplemente hacer nuevos hipervectores aleatorios en cada lote, con incluso 16 vectores aleatorios superando un conjunto fijo de miles.
...
Parte superior
Clasificación
Favoritos
