Não acho que as pessoas tenham percebido quão loucos são os resultados deste novo artigo TTT + RL da Stanford/Nvidia. Treinando um modelo de código aberto, eles - superaram o Deepmind AlphaEvolve, descobriram um novo limite superior para o problema de sobreposição mínima de Erdos - Desenvolveram novos kernels de GPU A100 2x mais rápidos que o melhor kernel humano - Superaram a melhor tentativa de codificação de IA e a tentativa humana no AtCoder A ideia do Treinamento em Tempo de Teste é treinar um modelo *enquanto* ele tenta iterativamente resolver uma tarefa. Combinar isso com RL como fazem neste artigo abre as portas para possibilidades de aprendizado contínuo. Autores: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_