Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Adopté un enfoque similar de Generador-Verificador para el uso de modelos en la investigación teórica de la física.
Los expertos humanos en la vanguardia de la ciencia pueden mejorar los modelos de verificadores hasta el punto de que la operación autónoma es extremadamente fuerte incluso en problemas de investigación del mundo real (no solo problemas matemáticos fabricados en concursos de matemáticas = problemas bien planteados que pueden ser resueltos en un tiempo finito por humanos).
DeepSeekMathV2
Sinergia entre generador y verificador
El generador de demostraciones y el verificador forman un bucle de retroalimentación auto-mejorador. A medida que el generador produce pruebas cada vez más complejas, estas desafían al verificador, exponiendo debilidades que se convierten en nuevos datos de entrenamiento. Inicialmente, expertos humanos guiaban la reformación del verificador revisando sus problemas señalados — un proceso eficiente generando múltiples intentos de verificación por prueba. Esta "meta-verificación" (comprobar los hallazgos del verificador en lugar de las pruebas directamente) resultó tanto más fácil para humanos como más fácil de aprender para los LLMs.
Al escalar el número de análisis y entrenamiento de verificadores en estas anotaciones asistidas por IA, el verificador alcanzó finalmente un nivel de fiabilidad en el que ya no fue necesaria intervención humana en las ejecuciones finales, cerrando el ciclo entre la generación automatizada de pruebas y la verificación.

28 nov, 01:26
¡Uau! DeepSeekMath-V2
¡Arquitectura de generador y verificador otra vez!
... Hacia un razonamiento matemático autoverificable, investigamos cómo entrenar un verificador basado en LLM preciso y fiel para la demostración de teoremas. Luego entrenamos un generador de demostraciones usando el verificador como modelo de recompensa, e incentivamos al generador a identificar y resolver la mayor cantidad posible de problemas en sus propias demostraciones antes de finalizarlas. Para mantener la brecha de verificación generacional a medida que el generador se fortalece, proponemos escalar el cálculo de verificación para etiquetar automáticamente nuevas pruebas difíciles de verificar, creando datos de entrenamiento para mejorar aún más el verificador. Nuestro modelo resultante, DeepSeekMath-V2, demuestra una gran capacidad de demostración de teoremas, logrando puntuaciones de nivel oro en IMO 2025 y CMO 2024 y un casi perfecto 118/120 en Putnam 2024 con cálculo escalado en tiempo de prueba. Aunque queda mucho trabajo por hacer, estos resultados sugieren que el razonamiento matemático autoverificable es una dirección de investigación factible que podría ayudar a desarrollar sistemas de IA matemática más capaces.

Esto describe la transición de una pipeline básica de Generador-Verificador usando modelos estándar, a una en la que el propio Verificador ha sido mejorado mediante datos de entrenamiento de expertos humanos utilizados en la meta-verificación.

1.97K
Populares
Ranking
Favoritas
