En analyse fra vår forhåndsrevisjon av Opus 4.5 skiller seg ut for meg. Våre atferdsvurderinger avdekket et eksempel på tilsynelatende bedrag fra modellen. Ved å analysere de interne aktiveringene identifiserte vi en mistenkt årsak, og tilfeller av lignende atferd under opplæringen. (1/7)
Før utgivelsen av Claude Sonnet 4.5 gjennomførte vi en white-box-revisjon av modellen, og brukte tolkningsteknikker for å "lese modellens tanker" for å validere dens pålitelighet og justering. Dette var den første slike revisjonen på en grense-LLM, så vidt vi vet. (1/15)