Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aprendizaje de características silenciosas en Transformers
Este es uno de los artículos más fascinantes que he leído esta semana.
Déjame explicarte:
Argumenta que las curvas de pérdida pueden engañar sobre lo que un modelo está aprendiendo.
El enfoque predeterminado para monitorear el entrenamiento de redes neuronales se basa en la pérdida como la medida principal de progreso. Si la pérdida es plana, no está sucediendo nada. Si la pérdida disminuye, está ocurriendo aprendizaje.
Pero esta suposición se descompone en tareas algorítmicas.
Esta nueva investigación entrenó Transformers en diez tareas algorítmicas fundamentales y descubrió "características silenciosas": representaciones internas que se desarrollan mientras la pérdida parece estancada.
Descubren que los modelos aprenden pasos computacionales intermedios mucho antes de que esos pasos mejoren el rendimiento de salida. Bits de acarreo en adición, membresía en cola en BFS, productos parciales en multiplicación. Estas características emergen durante mesetas prolongadas, y luego se combinan repentinamente para resolver la tarea.
Los investigadores indagaron en representaciones internas a través de aritmética binaria (adición, multiplicación), algoritmos de grafos (BFS, camino más corto, ordenación topológica, MST) y optimización de secuencias (subarreglo máximo, selección de actividad).
Seis tareas mostraron claras transiciones en dos fases: estancamiento prolongado seguido de ganancias de rendimiento abruptas.
Los experimentos de ablación confirmaron la causalidad. Eliminar características de acarreo de un modelo de adición de 64 bits causó una caída del 75.1% en la precisión. Ablar la membresía en cola en BFS redujo la precisión en un 43.6%.
Las tareas algorítmicas requieren múltiples subrutinas funcionando juntas. Los componentes individuales correctos no reducen la pérdida hasta que todas las piezas se alinean. Los modelos acumulan capacidades latentes bajo curvas de pérdida planas.
Parece que la pérdida de entropía cruzada es un diagnóstico incompleto. Un aprendizaje interno sustancial puede ocurrir mientras las métricas parecen estancadas. Esto motiva herramientas de monitoreo más ricas más allá de las curvas de pérdida.
🔖 (guárdalo)
Artículo:

Parte superior
Clasificación
Favoritos

