Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La próxima frontera para el entrenamiento de LLM basado en RL:
> Generalización
Los entornos de RL pueden ayudar a los LLM a volverse competentes en cualquier tarea específica.
El próximo avance es un método de RL que puede generalizar a cualquier tarea.
Un verificador universal.
Pavel:
"La pregunta principal es la generalización y cómo hacer algo que no solo esté maximizando los benchmarks, sino que realmente esté llevando a mejoras genuinas. Y esa es una pregunta muy difícil. Siempre ha sido la pregunta difícil, creo, del aprendizaje automático."
Parte superior
Clasificación
Favoritos
