Este artículo de DeepMind acaba de acabar silenciosamente con la mentira más reconfortante en la seguridad de la IA. La idea de que la seguridad se trata de cómo se comportan los modelos la mayor parte del tiempo suena razonable. También es incorrecta en el momento en que los sistemas escalan. DeepMind muestra por qué los promedios dejan de importar cuando el despliegue alcanza millones de interacciones. El artículo replantea la seguridad de la AGI como un problema de distribución. Lo que importa no es el comportamiento típico. Es la cola. Fallos raros. Casos extremos. Eventos de baja probabilidad que parecen ignorables en las pruebas pero se vuelven inevitables en el mundo real. Los benchmarks, el red-teaming y las demostraciones muestrean todo el medio. El despliegue muestrea todo. Usuarios extraños, incentivos extraños, bucles de retroalimentación hostiles, entornos para los que nadie planeó. A gran escala, esos casos dejan de ser raros. Son garantizados. Aquí está la incómoda percepción: el progreso puede hacer que los sistemas parezcan más seguros mientras los hace más peligrosos en silencio. Si la capacidad crece más rápido que el control de la cola, los fallos visibles disminuyen mientras el riesgo catastrófico se acumula fuera de la vista. Dos modelos pueden parecer idénticos en promedio y aún así diferir enormemente en el comportamiento en el peor de los casos. Las evaluaciones actuales no pueden ver esa brecha. Los marcos de gobernanza suponen que pueden. No puedes certificar la seguridad con pruebas finitas cuando el riesgo reside en el cambio de distribución. Nunca estás probando el sistema que realmente despliegas. Estás muestreando un futuro que no controlas. Esa es la verdadera conclusión. La seguridad de la AGI no es un atributo del modelo. Es un problema de sistemas. El contexto de despliegue, los incentivos, la monitorización y cuánto riesgo de cola la sociedad tolera importan más que promedios limpios. Este artículo no tranquiliza. Elimina la ilusión. La pregunta no es si el modelo generalmente se comporta bien. Es qué sucede cuando no lo hace — y cuán a menudo se permite eso antes de que la escala lo haga inaceptable. Artículo: