在Claude Sonnet 4.5發布之前,我們對該模型進行了白盒審計,應用可解釋性技術來「讀懂模型的思維」,以驗證其可靠性和一致性。據我們所知,這是對前沿大型語言模型進行的首次此類審計。(1/15)