No creo que la gente se haya dado cuenta de lo locos que son los resultados de este nuevo artículo de TTT + RL de Stanford/Nvidia. Entrenando un modelo de código abierto, ellos - superaron a Deepmind AlphaEvolve, descubrieron un nuevo límite superior para el problema de superposición mínima de Erdos - Desarrollaron nuevos núcleos de GPU A100 2x más rápidos que el mejor núcleo humano - Superaron el mejor intento de codificación de IA y el intento humano en AtCoder La idea del Entrenamiento en Tiempo de Prueba es entrenar un modelo *mientras* intenta resolver una tarea de manera iterativa. Combinar esto con RL como lo hacen en este artículo abre las compuertas de posibilidades para el aprendizaje continuo. Autores: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_