Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Não acho que as pessoas tenham percebido quão loucos são os resultados deste novo artigo TTT + RL da Stanford/Nvidia.
Treinando um modelo de código aberto, eles
- superaram o Deepmind AlphaEvolve, descobriram um novo limite superior para o problema de sobreposição mínima de Erdos
- Desenvolveram novos kernels de GPU A100 2x mais rápidos que o melhor kernel humano
- Superaram a melhor tentativa de codificação de IA e a tentativa humana no AtCoder
A ideia do Treinamento em Tempo de Teste é treinar um modelo *enquanto* ele tenta iterativamente resolver uma tarefa. Combinar isso com RL como fazem neste artigo abre as portas para possibilidades de aprendizado contínuo.
Autores: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Top
Classificação
Favoritos
