Esta demostración de chatgpt es realmente interesante y va más allá de lo que pensaba que se podría resolver con una sola consulta a gpt pro.
Sin embargo, me pregunto cuántos problemas de Erdos seguirán a un teorema de Erdos.
He resuelto un segundo problema de Erdos (#281) usando solo GPT 5.2 Pro, pero no he encontrado soluciones previas.
Terence Tao lo llama "quizá el caso más inequívoco" de la IA resolviendo un problema abierto:
Nuevos estudios estudian cuando los métodos de gradiente espectral (por ejemplo, Muon) ayudan en el aprendizaje profundo:
1. Identificamos una forma generalizada de mal condicionamiento en DL: las matrices post-activaciones tienen rango bajo y estable.
2. Luego explicamos por qué los métodos espectrales pueden funcionar bien a pesar de esto.
Hilo largo
Durante el programa de LLM de Simons el otoño pasado, @mahdisoltanol preguntó si este ineq es cierto para la distribución. p y q:
Dkl(p,q) · ∑i pi(pi−qi) ≤ ∑i pi · (pi−qi) ln(pi/qi)
Algunos de nosotros nos obsesionamos con el límite. Recuerdo @jasondeanlee me quedé despierto hasta tarde buscando contraejemplos.
GPT-5 Pro encontró un contraejemplo a la optimalidad mayoritaria NICD-con-borrados (lista de Simons, p.25).
En p = 0.4, n = 5, f (x) = signo (x_1-3x_2 + x_3-x_4 + 3x_5) da E | f (x) | = 0.43024 frente a la mejor mayoría 0.42904.