Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un hallazgo pequeño y sorprendente en este nuevo artículo de Google.
Los modelos de razonamiento superan a los modelos ajustados por instrucciones en tareas complejas.
La explicación común es que el cálculo extendido en tiempo de prueba ocurre a través de cadenas de pensamiento más largas.
Pero esta nueva investigación revela algo más profundo.
Sugiere que el razonamiento mejorado surge de la simulación implícita de interacciones similares a múltiples agentes dentro del propio modelo.
Los investigadores la llaman una "sociedad del pensamiento".
A través del análisis cuantitativo de trazas de razonamiento de DeepSeek-R1 y QwQ-32B, encuentran que estos modelos presentan una diversidad de perspectiva mucho mayor que los modelos de referencia.
Activan un conflicto más amplio entre características heterogéneas relacionadas con la personalidad y la experiencia durante el razonamiento.
¿Qué parece esto?
Los comportamientos conversacionales incluyen secuencias de preguntas y respuestas, cambios de perspectiva, conflictos entre puntos de vista y reconciliación de desacuerdos.
El modelo debate consigo mismo, adoptando roles socioemocionales distintos que caracterizan una conversación aguda y de ida y vuelta.
DeepSeek-R1 muestra significativamente más respuestas a preguntas, cambios de perspectiva y reconciliación en comparación con DeepSeek-V3. El mismo patrón se cumple con QwQ-32B frente a Qwen-2.5-32B-IT. Los modelos ajustados a instrucciones producen monólogos unilaterales. Los modelos de razonamiento producen diálogo simulado.
Los modelos de razonamiento exitosos evitan la "cámara de eco" que conduce a respuestas erróneas. Al simular desacuerdos entre diversas perspectivas, evitan la conformidad aduladora con afirmaciones iniciales engañosas.
Los experimentos de RL controlados muestran que los modelos base desarrollan espontáneamente comportamientos conversacionales cuando son recompensados únicamente por la precisión del razonamiento.
Los modelos afinados con andamiaje conversacional aprenden más rápido que aquellos afinados con razonamientos tipo monólogo, especialmente durante las primeras etapas de entrenamiento.
...

Populares
Ranking
Favoritas
