Aquí está el Ritual Research Digest de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con los últimos es imposible. Hacemos la lectura para que usted no tenga que hacerlo.
Critique-RL: Entrenamiento de modelos de lenguaje para la crítica a través del aprendizaje por refuerzo en dos etapas Este artículo tiene como objetivo desarrollar modelos de lenguaje crítico que no se basen en una supervisión más fuerte o una función de recompensa de oráculo durante las pruebas.
Proponen Critique-RL, un enfoque de RL de 2 etapas, un enfoque de RL en línea basado en la interacción actor-crítico para desarrollar modelos de crítica. Extensos experimentos muestran que el método supera las líneas de base, produciendo un mejor rendimiento con Qwen 2.5 7B.
PACR: Recompensa de confianza progresivamente ascendente por razonamiento de LLM Este trabajo pregunta si se puede obtener supervisión paso a paso a partir del modelo. Introducen PACR, una señal densa intrínseca al modelo que convierte el crecimiento de la confianza en supervisión gradual para RL.
Encuentran, entre otras cosas, que un ascenso de confianza constante se correlaciona fuertemente con la corrección de la respuesta final. A través de múltiples puntos de referencia de razonamiento, el aumento de RLVR con métodos PACR mejora la dinámica de entrenamiento y el rendimiento final.
El fin de la decodificación manual: hacia modelos de lenguaje verdaderamente integrales Este artículo propone AutoDeco, una arquitectura que crea un LM "de extremo a extremo" capaz de controlar su propio proceso de decodificación. Aumentan el transformador con cabezales de predicción.
Los cabezales AutoDeco utilizan el estado oculto actual del modelo para predecir dinámicamente los parámetros de muestreo óptimos para el siguiente token. Lanzan cabezales AutoDeco para Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 y GPT-OSS-120 y validan con varios otros modelos.
Escalado del razonamiento latente a través de modelos de lenguaje en bucle Este artículo tiene como objetivo explorar el comportamiento de escalado de LoopLM en varios aspectos. Desarrollan objetivos novedosos para entrenar computación recurrente eficiente mientras mantienen el máximo rendimiento.
Entrenan dos modelos, LoopLM de parámetros 1.4B y 2.6B en tokens 7.7T que coinciden con el rendimiento de los transformadores estándar 4B y 8B en casi todos los puntos de referencia, logrando mejoras de eficiencia de parámetros de 2-3×. También exploran las razones por las que los transformadores en bucle son mejores.
La herramienta Decathlon: evaluación comparativa de agentes lingüísticos para la ejecución de tareas diversas, realistas y de largo horizonte Introduce un punto de referencia para evaluar los agentes lingüísticos. TOOLATHLON se basa en escenarios realistas que requieren múltiples aplicaciones.
TOOLATHLON requiere, en promedio, de 4 a 6 horas de trabajo por parte de un estudiante graduado de investigación que se especializa en informática. Sonnet 4.5, GPT-5 y Grok4 funcionan bien. Observan diferencias significativas entre las tasas de éxito de Pass@3 y Passˆ3, lo que indica cobertura de capacidad pero problemas de consistencia.
Síganos @ritualdigest para obtener más información sobre todo lo relacionado con la investigación de cripto x IA, y @ritualnet para obtener más información sobre lo que Ritual está construyendo.
3.91K