Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
No creo que la gente se haya dado cuenta de lo increíbles que son los resultados de este nuevo artículo TTT + RL de Stanford/Nvidia.
Entrenando un modelo de código abierto, ellos
- superar Deepmind AlphaEvolve, descubrió un nuevo límite superior para el problema de solapamiento mínimo de Erdos
- Desarrolló nuevos kernels de GPU A100 el doble de veces más rápidos que el mejor kernel humano
- Superó al mejor intento de codificación por IA y al intento humano en AtCoder
La idea del entrenamiento en tiempo de prueba es entrenar un modelo *mientras* intentando iterativamente resolver una tarea. Combinar esto con el RL, como hacen en este artículo, abre las compuertas de posibilidades para el aprendizaje continuo
Autores: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Populares
Ranking
Favoritas
