Mevcut mekanik interp teknikleriyle gizli akıl yürütme LLM'lerinin düşünce zincirini (CoT) anlayabilir miyiz? En azından basit matematik problemlerinde yorumlanabilir yapıyı ortaya çıkarabildiğimiz ortaya çıktı! Kısa bir çalışmada, gizli vektörlerin örneğin temsil ettiğini gösteriyoruz. Ara hesaplamalar