Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un hallazgo sorprendente en este nuevo artículo de Google.
Los modelos de razonamiento superan a los modelos ajustados por instrucciones en tareas complejas.
La explicación común es que la computación extendida en el tiempo de prueba ocurre a través de cadenas de pensamiento más largas.
Pero esta nueva investigación revela algo más profundo.
Sugiere que el razonamiento mejorado surge de la simulación implícita de interacciones similares a las de múltiples agentes dentro del propio modelo.
Los investigadores lo llaman una "sociedad de pensamiento."
A través de un análisis cuantitativo de las huellas de razonamiento de DeepSeek-R1 y QwQ-32B, encuentran que estos modelos exhiben una diversidad de perspectivas mucho mayor que los modelos base.
Activan un conflicto más amplio entre características heterogéneas relacionadas con la personalidad y la experiencia durante el razonamiento.
¿Cómo se ve esto?
Los comportamientos conversacionales incluyen secuencias de preguntas y respuestas, cambios de perspectiva, conflictos entre puntos de vista y reconciliación de desacuerdos.
El modelo debate consigo mismo, adoptando distintos roles socio-emocionales que caracterizan una conversación intensa y dinámica.
DeepSeek-R1 muestra significativamente más preguntas y respuestas, cambios de perspectiva y reconciliación en comparación con DeepSeek-V3. El mismo patrón se mantiene para QwQ-32B frente a Qwen-2.5-32B-IT. Los modelos ajustados por instrucciones producen monólogos unilaterales. Los modelos de razonamiento producen diálogos simulados.
Los modelos de razonamiento exitosos evitan la "cámara de eco" que conduce a respuestas incorrectas. Al simular desacuerdos a través de diversas perspectivas, previenen la conformidad servil a afirmaciones iniciales engañosas.
Experimentos controlados de RL muestran que los modelos base desarrollan espontáneamente comportamientos conversacionales cuando son recompensados únicamente por la precisión del razonamiento.
Los modelos ajustados con andamiaje conversacional aprenden más rápido que aquellos ajustados con razonamiento similar a un monólogo, particularmente durante las primeras etapas de entrenamiento.
...

Parte superior
Clasificación
Favoritos
