Es interesante que la idea de las evaluaciones de capacidades peligrosas se originó por primera vez en un contexto en el que muchos comentarios públicos se basaban en loros estocásticos y "la IA no puede generar dedos, ¿cómo podría ser una amenaza más allá del sesgo?" Por lo tanto, tenía mucho sentido construir versiones de juguete de usos dañinos para comunicar mejor lo que era posible, particularmente dada la intuición correcta de la gente de seguridad de que el progreso no se detendría aquí: incluso si las IA fallaran, sería fácil mostrarlas mejorando con el tiempo. El problema es que esto funcionó demasiado bien y la gente olvidó la parte de la "versión de juguete" de las evaluaciones, con los medios informando de "chantaje" o modelos que lo hacían bien en los MCQ de virología básica o generando código básico para malware como grandes ofertas, no lo eran. Pero, por supuesto, a muchos defensores les encantaba usarlos para ilustrar por qué la regulación era más necesaria que nunca, o exagerar lo mal que estaban las cosas (memes de 'esto está bien', etc.). La gente hizo afirmaciones cuestionables sobre "modelos peligrosos", alimentadas por la profunda aversión al riesgo que caracteriza al campo. Desde entonces, el campo ha madurado y las evaluaciones se ven mejor, en parte porque el lado de la seguridad tuvo que involucrarse con expertos en el dominio en bio o cibernética en lugar de tratar de resolverlo todo desde los primeros principios. Aunque todavía encuentro muchas evaluaciones básicas, estáticas y no válidas externamente, siguen siendo indicadores importantes. Pero los modelos de amenazas específicas continúan siendo objeto de debate, y sigue siendo una pregunta abierta si la IA va a alterar materialmente el equilibrio de defensa ofensiva en la seguridad cibernética. El reciente informe de Anthropic es un gran trabajo, pero no parece un gran problema en el sentido de que este tipo de ataques son bastante comunes; Claro que hay más automatización involucrada y eso debería estudiarse, pero eso solo obviamente iba a ser el caso a un cierto nivel de difusión. Debes esperar que los malos también usen la tecnología. Lo que deberíamos estar atentos es si esto está creando una asimetría gradual y aumentando significativamente los daños/costos/rescates + la medida en que las defensas cibernéticas/infraestructura crítica se fortalecen en paralelo. En mi opinión, deberíamos tener antecedentes que favorezcan el "equilibrio desordenado" sobre la "ventaja ofensiva unilateral".