Jedna analýza z našeho předběžného auditu Opus 4.5 mi utkvěla v paměti. Naše behaviorální hodnocení odhalila příklad zjevného klamání modelem. Analýzou vnitřních aktivací jsme identifikovali podezření na příčinu a případy podobného chování během tréninku. (1/7)
Před vydáním Claude Sonet 4.5 jsme provedli audit white-box modelu, při kterém jsme použili techniky interpretovatelnosti ke "čtení myšlenek modelu", abychom ověřili jeho spolehlivost a soulad. Pokud je nám známo, jednalo se o první takový audit na hraničním LLM. (1/15)