Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A próxima fronteira para o treinamento de LLM baseado em RL:
> Generalização
Ambientes de RL podem ajudar os LLMs a se tornarem proficientes em qualquer tarefa específica.
A próxima inovação é um método RL que pode generalizar para qualquer tarefa.
Um verificador universal.
Pavel:
"A grande questão é generalização e como fazer algo que não só maximiza os benchmarks, mas que realmente leva a melhorias genuínas. E essa é uma pergunta muito difícil. Essa sempre foi a questão difícil, eu acho, sobre aprendizado de máquina."
Melhores
Classificação
Favoritos
