Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (esperando que los enlaces incrustados desactiven lo suficiente para que no mucha gente se moleste con este contenido)
@ylecun ha sido algo de actualidad últimamente, así que hoy he revisado:
Aprendizaje Autosupervisado a partir de Imágenes con una Arquitectura Predictiva de Incrustación Conjunta
Estoy de acuerdo en términos generales con la idea de que las predicciones importantes son de representaciones internas, no de píxeles, por lo que los modelos generativos pueden ser algo contraproducentes, o al menos ineficientes innecesariamente para muchas tareas.
Sin embargo, tiendo a pensar que la predicción interna debe ocurrir a un nivel más granular que el procesamiento completo de imágenes, a nivel minicolumna o incluso neuronal, y con un componente más temporal que el enmascaramiento local.
El entrenamiento autosupervisado funciona con un conjunto de datos grande sin saber qué se le pedirá al modelo más adelante, solo para acumular conocimiento a partir de los datos. Después, puedes entrenar un clasificador lineal simple (sonda lineal) en la salida y obtener un rendimiento bastante bueno. Las mejores sondas lineales en modelos autosupervisados congelados no son tan potentes como clasificadores entrenados de extremo a extremo, pero el mismo SSM puede ser eficaz para muchas tareas diferentes al mismo tiempo.
El artículo señala que, a diferencia de JEPA, los métodos de entrenamiento basados en invarianza que toman la misma imagen y la complementan de dos maneras diferentes manteniendo la similitud representacional, obtienen su rendimiento a costa de un conjunto de aumentos de imagen sesgados por el investigador, que no se transfieren a otras modalidades como audio o texto. Observo que JEPA es muy sensible al enmascaramiento exacto realizado (tabla 6), que no se siente muy diferente.
El codificador objetivo es superficialmente similar a la formulación moderna del modelo objetivo en redes DQN RL con una EMA de los pesos en lugar de una copia ocasional, pero aunque fue una ayuda de estabilidad para RL (y no siempre es necesario), tiene un propósito más fundamental aquí: evitar que el modelo colapse representaciones en triviales para predecir. Esto, junto con que LayerNorm también es un elemento crucial, no está detallado en el artículo, y tuve que buscar referencias a ello en otro sitio.
Es un poco curioso que apliquen un recorte aleatorio de 0,85-1,0 al contexto, pero solo eliminen bloques de la derecha y la parte inferior. Esperaba ver una ablación de ese cultivo.
Aumentar la resolución de la imagen es una forma un poco extraña de escalar el modelo. Probablemente no sea realmente la resolución lo que ayuda, sino el número total de parches.
Hay un gran cuerpo de trabajo sobre la autosupervisión que solo conozco de forma vaga, así que probablemente me estoy perdiendo algunos aspectos clave que distinguen a JEPA. Todavía estoy lidiando con la cuestión central de qué aprenden exactamente los contextos y cómo la arquitectura y el entrenamiento del modelo lo alejan del colapso.
Populares
Ranking
Favoritas
