Nuova ricerca dei Fellows di Anthropic: Come si amplifica il disallineamento con l'intelligenza del modello e la complessità del compito? Quando l'IA avanzata fallisce, lo fa perseguendo obiettivi sbagliati? O fallirà in modo imprevedibile e incoerente—come un "disastro totale?" Leggi di più: