Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
@meta @cornell de investigación // modelos de lenguaje, teoría de la información, ciencia de la IA
aquí hay un poco de información valiosa:
si hacemos RL durante demasiado tiempo después del preentrenamiento, seguramente sobrescribiremos parámetros y comenzaremos a olvidar cosas.
en el artículo original de instructGPT, su mejor modelo mezcló RLHF con gradientes de preentrenamiento para evitar exactamente este problema de deriva del modelo.
sin embargo, nadie está haciendo esto ya. claro, es una instancia particular (mezcla de gradientes) de una idea más amplia (evitar el olvido), pero parece ser una línea de pensamiento muy pasada por alto a medida que hacemos más y más pasos de RL.
por ejemplo, vean el reciente artículo de ProRL. ahora están haciendo más de 1000 pasos de GRPO con una tasa de aprendizaje no trivial y sin penalización por desviarse del modelo original. los circuitos construidos dentro del modelo durante el preentrenamiento seguramente están comenzando a decaer. y si no, lo harán después de 10k o 100k pasos de RL.
sospecho que esta idea volverá eventualmente; probablemente ya lo estén haciendo en los grandes laboratorios.



51,14K
esto parece realmente importante:
es totalmente plausible que un modelo pudiera obtener IMO oro sin *ningún* aprendizaje por refuerzo, dado un prompt perfectamente elaborado.
simplemente no lo sabemos, y carecemos de herramientas para buscar de manera eficiente a través del espacio de prompts. me alegra ver que al menos alguien está intentando.

Lakshya A Agrawal29 jul 2025
¿Cómo se compara la optimización de prompts con algoritmos de RL como GRPO?
GRPO necesita miles de ejecuciones, pero los humanos pueden aprender de unos pocos ensayos, reflexionando sobre lo que funcionó y lo que no.
Conoce a GEPA: un optimizador de prompts reflexivo que puede superar a GRPO en hasta un 20% con 35 veces menos ejecuciones!🧵

36,21K
situación hipotética -
soy una empresa de IA que ha reducido el costo de transferir y almacenar modelos a cero. puedo ofrecer a cada usuario su propio modelo sin costos adicionales.
¿qué hago? ¿entrenar directamente modelos específicos para el usuario con sus datos? ¿o hacer RLHF basado en las calificaciones del chat? ¿algo más?
16,57K
el cerebro humano reserva el 40% de su procesamiento exclusivamente para la visión. los LLM modernos de alguna manera evolucionaron sin esto por completo.

jack morris29 jul 2025
es muy sorprendente que quince años de investigación en visión por computadora intensiva no hayan contribuido ~nada hacia la AGI excepto mejores optimizadores.
todavía no tenemos modelos que se vuelvan más inteligentes cuando les damos ojos.
44,22K
Parte superior
Clasificación
Favoritos
En tendencia on-chain
En tendencia en X
Principales fondos recientes
Más destacado