Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Pensamiento Géminis, Personal Superior RS @GoogleDeepMind. 🇯🇵 -nacido 🇨🇳🇨🇦 . ej: Líder de Multilingüismo de Gemini, GPT-4 @OpenAI (JP: @shanegJP)
Organizamos el primer taller de RL "centrado en datos" en NeurIPS en 2021 (durante el mercado bajista para RL profunda). Me encanta verlo de nuevo ahora en la era de los LLMs y los entornos de RL del mundo real.


Andrej Karpathy28 ago 2025
En la era del preentrenamiento, lo que importaba era el texto de internet. Principalmente querrías una colección grande, diversa y de alta calidad de documentos de internet de los que aprender.
En la era del ajuste fino supervisado, eran las conversaciones. Se contratan trabajadores temporales para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientadas a casos de uso de LLM.
Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era del aprendizaje por refuerzo, ahora son los entornos. A diferencia de los anteriores, le dan a la LLM la oportunidad de interactuar realmente: tomar acciones, ver resultados, etc. Esto significa que puedes esperar hacer mucho mejor que la imitación experta estadística. Y pueden ser utilizados tanto para el entrenamiento como para la evaluación del modelo. Pero, al igual que antes, el problema central ahora es necesitar un conjunto grande, diverso y de alta calidad de entornos, como ejercicios para que la LLM practique.
En cierto modo, me recuerda al primer proyecto de OpenAI (gym), que era exactamente un marco que esperaba construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran tareas de control académico simples de la época, como cartpole, ATARI, etc. El hub de entornos @PrimeIntellect (y el repositorio `verifiers` en GitHub) construye la versión modernizada específicamente dirigida a LLM, y es un gran esfuerzo/idea. Propuse que alguien construyera algo como esto a principios de este año:
Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio la comunidad/industria puede paralelizarse en muchos dominios diferentes, lo cual es emocionante.
Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agentivas, pero soy pesimista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son muy sospechosas, y creo que los humanos no utilizan el RL para aprender (quizás lo hagan para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos utilizan paradigmas de aprendizaje diferentes que son significativamente más poderosos y eficientes en muestras y que aún no han sido inventados y escalados adecuadamente, aunque existen bocetos e ideas tempranas (como solo un ejemplo, la idea de "aprendizaje de indicaciones del sistema", moviendo la actualización a tokens/contextos y no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).
894
Padres asiáticos: "(Después de días de negociaciones). Está bien, puedes pasar 1-2 años construyendo AGI. Pero después de AGI, solicita un doctorado y haznos sentir orgullosos."

Shane Gu29 ago 2025
Solve a moonshot research project -> then apply for PhD
311
Parte superior
Clasificación
Favoritos