Aquí está el Ritual Research Digest de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con los últimos es imposible. Hacemos la lectura para que usted no tenga que hacerlo.
DeepSeekMath-V2: Hacia un razonamiento matemático autoverificable Este artículo presenta DSMath-V2, un modelo entrenado con deepseek-3.2-exp para demostración de lenguaje natural en matemáticas. La brecha de verificación generacional es un gran obstáculo para la prueba informal.
Primero entrenan a un verificador del modelo utilizando anotaciones expertas para evaluar tanto la corrección de las respuestas como el análisis. Este verificador se utiliza para entrenar el modelo final del demostrador, que tanto escribe las demostraciones como analiza su corrección. Logran oro en IMO 2025.
Mente colmena artificial: La homogeneidad abierta de los modelos de lenguaje (y más allá) El artículo presenta INFINITY-CHAT, un conjunto de datos de 26.000 consultas del mundo real que aceptan múltiples respuestas. Utilizando esto, estudian el colapso de modos intra e intermodelo en 70+ LMs.
Descubren un efecto de Mente Colmena Artificial con repetición intramodelo, donde un modelo genera repetidamente resultados similares, y homogeneidad entre modelos, donde diferentes modelos convergen en ideas similares con pequeños cambios de fraseo. Esto plantea preguntas sobre la diversidad de modelos.
Colaboración latente en sistemas multiagente La obra introduce Latent MAS, un marco colaborativo de extremo a extremo que opera en un espacio latente continuo. El diseño integra tanto la generación latente de pensamientos como la transferencia de memoria latente entre agentes.
LatentMAS se basa en la expresividad del razonamiento, la fidelidad de la comunicación y la complejidad de la colaboración. Tanto en configuraciones MAS secuenciales como jerárquicas, Qwen 3(4B, 8B y 14B), LatentMAS supera a las líneas base de MAS basadas en texto, mejorando la precisión y reduciendo el uso de tokens de salida.
ToolOrchestra: Elevando la inteligencia mediante una orquestación eficiente de modelos y herramientas Los autores proponen un paradigma de orquestación en el que la inteligencia surge de un sistema compuesto. Un modelo de orquestador invoca las herramientas correctas en el orden correcto para una tarea.
Usando ToolOrchestra, se entrena un modelo 8B con RL para decidir cuándo y cómo invocar otros LMs y herramientas. Las recompensas equilibran la corrección, la eficiencia y la alineación con las preferencias del usuario. En HLE, Orchestrator supera a métodos anteriores con un coste computacional mucho menor.
Síganos @ritualdigest para obtener más información sobre todo lo relacionado con la investigación de cripto x IA, y @ritualnet para obtener más información sobre lo que Ritual está construyendo.
3.35K