Aquí está el Digest de Investigación Ritual de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con lo último es imposible. Hacemos la lectura para que tú no tengas que hacerlo.
Critique-RL: Entrenamiento de Modelos de Lenguaje para la Crítica a través del Aprendizaje por Refuerzo en Dos Etapas Este artículo tiene como objetivo desarrollar modelos de lenguaje críticos que no dependan de una supervisión más fuerte o de una función de recompensa oracular durante las pruebas.
Proponen Critique-RL, un enfoque de RL de 2 etapas, un enfoque de RL en línea basado en la interacción actor-crítico para desarrollar modelos de crítica. Experimentos extensivos muestran que el método supera las líneas base, obteniendo un mejor rendimiento con Qwen 2.5 7B.
PACR: Recompensa de Confianza Ascendente Progresiva para el Razonamiento de LLM Este trabajo pregunta si se puede obtener supervisión paso a paso del modelo. Introducen PACR, una señal densa e intrínseca al modelo que convierte el crecimiento de la confianza en supervisión paso a paso para RL.
Encuentran, entre otras cosas, que un aumento constante de la confianza se correlaciona fuertemente con la corrección de la respuesta final. A través de múltiples benchmarks de razonamiento, aumentar RLVR con métodos PACR mejora la dinámica de entrenamiento y el rendimiento final.
El Fin de la Decodificación Manual: Hacia Modelos de Lenguaje Verdaderamente de Extremo a Extremo Este artículo propone AutoDeco, una arquitectura que crea un modelo de lenguaje "de extremo a extremo" capaz de controlar su propio proceso de decodificación. Aumentan el transformador con cabezales de predicción.
Las cabezas de AutoDeco utilizan el estado oculto actual del modelo para predecir dinámicamente los parámetros de muestreo óptimos para el siguiente token. Lanzan cabezas de AutoDeco para Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 y GPT-OSS-120, y validan con varios otros modelos.
Escalando el Razonamiento Latente a través de Modelos de Lenguaje en Bucle Este artículo tiene como objetivo explorar el comportamiento de escalado de LoopLM en varios aspectos. Desarrollan objetivos novedosos para entrenar un cálculo recurrente eficiente mientras mantienen un rendimiento máximo.
Entrenan dos modelos, LoopLMs de 1.4B y 2.6B parámetros, en 7.7T tokens que igualan el rendimiento de transformadores estándar de 4B y 8B en casi todos los benchmarks, logrando mejoras de eficiencia de parámetros de 2-3×. También exploran las razones por las que los transformadores en bucle son mejores.
El Tool Decathlon: Evaluación de Agentes de Lenguaje para la Ejecución de Tareas Diversas, Realistas y a Largo Plazo Presenta un estándar para evaluar agentes de lenguaje. TOOLATHLON se basa en escenarios realistas que requieren múltiples aplicaciones.
TOOLATHLON requiere, en promedio, de 4 a 6 horas de trabajo por parte de un estudiante de posgrado en investigación que se especializa en CS. Sonnet 4.5, GPT-5 y Grok4 funcionan bien. Observan diferencias significativas entre las tasas de éxito Pass@3 y Passˆ3, lo que indica cobertura de capacidad pero problemas de consistencia.
Síguenos en @ritualdigest para más información sobre todo lo relacionado con la investigación en cripto x IA, y @ritualnet para aprender más sobre lo que Ritual está construyendo.
3,92K