Důležitý článek právě publikovaný v časopise Nature. Autoři ukazují, že jemné ladění velkých jazykových modelů na úzkém, zdánlivě neškodném úkolu může způsobit vážné nesoulad v zcela nesouvisejících oblastech. Například jemné doladění kódovacího úkolu vedlo model k podpoře zotročení lidstva umělou inteligencí a k projevování klamavého chování. To poukazuje na zásadní výzvu výzkumu sladění: optimalizace LLM pro konkrétní úkol může šířit neočekávané a škodlivé změny způsoby, které je obtížné předvídat. Obecněji tento článek nutí k hlubší otázce. Jsou LLM skutečně inteligentní, nebo jsou jen složité matematické objekty, kde lokální aktualizace parametrů mohou libovolně deformovat globální chování bez jakéhokoli pojmu koherentního "porozumění"? Celý článek v první odpovědi