Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10 #PaperADay
LeJEPA: Aprendizaje autosupervisado demostrable y escalable sin heurísticas
Los comentarios en #PaperADay 3 recomendaban este artículo como el último artículo de JEPA, ¡y realmente tiene mucho mejor aspecto!
Reconocen que gran parte de la investigación previa sobre JEPA es improvisada y está llena de heurísticas, pero aquí hacen fuertes afirmaciones teóricas de optimalidad y aportan demostraciones (que yo no leí).
La primera afirmación es que la gaussiana isotrópica es la única distribución óptima de incrustación tanto para sondeos lineales como no lineales, minimizando el riesgo en el peor caso entre tareas posteriores. Yo lo habría tomado con un simple "me parece bien", pero ellos lo explican con detalles y ejemplos.
Conseguir una gaussiana isotrópica en grandes dimensiones es más fácil decirlo que hacerlo. Presentan la Regularización Gaussiana Isotrópica Esbozada (SIGReg) como una función de pérdida bien comportada para lograr esto tras analizar varias pruebas estadísticas diferentes, y afirman que supera la maldición de la dimensionalidad con escalabilidad lineal.
La pérdida final es solo un factor de mezcla para ponderar la pérdida de predicción de JEPA frente a la pérdida de isotropía de SIGReg. Este es el único hiperparámetro ajustable para LeJEPA.
A pesar de la P en JEPA, aquí no usan redes predictoras, solo comparan directamente las incrustaciones de vistas para la pérdida de JEPA. Las redes predictoras podrían seguir siendo útiles para secuencias de vídeo, especialmente cuando están condicionadas con información de acción para agentes o robots.
Cada imagen de entrenamiento se incrementa para producir 2 vistas globales y 6 vistas locales con diferentes escalas espaciales pero el mismo conjunto de transformaciones de color y geometría. La pérdida es la media de la MSE entre la media de las incrustaciones de vistas globales y cada una de las incrustaciones de vistas locales.
No tengo una buena idea de los compromisos en sus transformaciones de visión, que siguen pareciendo muy ad-hoc, pero determinarán la naturaleza de lo que se filtra de la representación. Aprender lo que no importa es fundamental, pero la especificación de "importa" solo está implícita en las transformaciones de la vista.
LeJEPA en sí es independiente de la arquitectura: cualquier cosa que digiera un lote de muestras de un conjunto de datos en vectores puede utilizarse. Transformadores de visión, MLP, ConvNets, etc. Las mejoras específicas para las vistas serían específicas de la modalidad de entrada, pero el algoritmo LeJEPA podría funcionar con audio, imágenes, vídeo u otras cosas.
Demuestran que la pérdida LeJEPA en un modelo de gran base es muy indicativa del rendimiento posterior de las tareas, tanto directamente como con una heurística para mejorar aún más el poder predictivo de la pérdida.
También demuestran que puede usarse para entrenar desde cero en conjuntos de datos pequeños con tan solo 1000 muestras y obtener mejores resultados que sondear un modelo convencional de fundación general.
Me alegró ver bloques de código de ejemplo en el artículo en lugar de pseudocódigo cargado de griego, así como un repositorio de github.
El Apéndice D tiene detalles interesantes sobre cómo generar una buena cobertura de hiperesferas unitarias con muestras de baja discrepancia transformando secuencias de Sobol, pero esto solo es para su análisis teórico, y muestran que es mejor crear nuevos hipervectores aleatorios en cada lote, con incluso 16 vectores aleatorios superando a un conjunto fijo de miles.
Algunas preguntas:...
Populares
Ranking
Favoritas
