Ich habe das Gefühl, dass du eine RL-Umgebung erstellen könntest, die die COTS mit ihren wahren internen Zuständen in Einklang bringt, sodass du die Token in ihrem COT für Wahrhaftigkeit verwenden und gleichzeitig ihre introspektiven Fähigkeiten verbessern kannst.
Bartosz Cywinski
Bartosz Cywinski23. Dez., 03:15
Können wir die Denkweise (CoT) von latenten reasoning LLMs mit aktuellen Mechanismen zur Interpretation verstehen? Es stellt sich heraus, dass wir interpretable Strukturen aufdecken können, zumindest bei einfachen Mathematikproblemen! In einer kurzen Studie zeigen wir, dass latente Vektoren z. B. Zwischenberechnungen darstellen.
Kannst du das bitte bei Claude ausprobieren und einen Blogbeitrag machen @_sholtodouglas danke
19