Jeg føler at du kunne lage et RL-miljø som justerer feltsengene med dens sanne indre tilstander, slik at du kan bruke tokenene i feltsengen for sannferdighet og samtidig forbedre dens introspektive evner
Bartosz Cywinski
Bartosz Cywinski23. des., 03:15
Kan vi forstå tankekjeden (CoT) til latente resonnement-LLM-er ved hjelp av dagens mekaniske tolkningsteknikker? Det viser seg at vi kan avdekke tolkbar struktur, i hvert fall på enkle matteoppgaver! I en kort studie viser vi at latente vektorer representerer for eksempel Mellomliggende beregninger
Kan du prøve dette på Claude og lage et blogginnlegg @_sholtodouglas takk
25