Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aquí está el Ritual Research Digest de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI.
Con cientos de artículos publicados semanalmente, mantenerse al día con los últimos es imposible. Hacemos la lectura para que usted no tenga que hacerlo.

RefineBench: Evaluación de la capacidad de refinamiento de los modelos de lenguaje mediante listas de verificación
Este documento presenta RefineBench, un benchmark que evalúa las capacidades de refinamiento de los LMs en diversos escenarios. Incorpora tanto tareas libres como basadas en la precisión.

Cubre 11 áreas de humanidades, ciencias sociales, derecho y áreas STEM. Esto se evalúa de dos maneras: autorefinamiento y refinamiento guiado. En un entorno de autorefinamiento, incluso los LMs de frontera obtienen una puntuación relativamente baja, mientras que el refinamiento guiado es muy efectivo.


ThetaEvolve: Aprendizaje en tiempo de prueba sobre problemas abiertos
El artículo propone una cadena de código abierto para abordar problemas desafiantes. Demuestran que DeepSeek-R1-0528-Qwen3-8B mejora los límites más conocidos de algunos problemas abiertos considerados en AlphaEvolve.

RL en ThetaEvolve supera las ejecuciones solo de inferencia en 2 modelos OSS y 4 problemas desafiantes. Demuestran que el modelo adquiere capacidades no triviales, como lo demuestran mejores puntuaciones y un progreso más rápido. Esta mejora incluso se traslada a otras tareas.

¿Cómo induce la composición de habilidades el trabajo en vida real después del entrenamiento? Un estudio de caso sobre Countdown
El artículo explora cómo el RL puede ayudar a un modelo a aprender habilidades de composición con la ayuda de la cuenta atrás. Desentrelazan la longitud y la generalización composicional.

Descubren que:
1) Los modelos se generalizan a puzles de mayor tamaño
2) La estructura del patrón determina la dificultad
3) Los modelos se generalizan a patrones invisibles
En última instancia, demuestra que el RL post-entrenamiento ayuda a la generalización de la longitud y a la generalización composicional parcial


DeepSeek-V3.2: Empujando la frontera de los modelos de lenguaje abiertos de gran tamaño
El artículo presenta DS-V3.2, que incorpora la atención escasa de Deepseek para reducir la complejidad computacional mientras preserva el rendimiento en escenarios de largo plazo.

Para el postraining RL, emplean destilación especializada (los modelos expertos por dominio son datos destilados para entrenar el punto de control final) y entrenamiento mixto RL (razonamiento de fusión, agente y alineación humana en una sola etapa).
Entrenan un modelo especial usando DSmath-V2, logrando oro en mi opinión.


Síganos @ritualdigest para obtener más información sobre todo lo relacionado con la investigación de cripto x IA, y
@ritualnet para obtener más información sobre lo que Ritual está construyendo.
358
Populares
Ranking
Favoritas
