Jeg er ekstremt begeistret for potensialet i tankekjedetrofasthet og tolkbarhet. Det har betydelig påvirket utformingen av resonneringsmodellene våre, og starter med o1-forhåndsvisning. Ettersom AI-systemer bruker mer databehandling, for eksempel på langsiktige forskningsproblemer, er det avgjørende at vi har en måte å overvåke deres interne prosess på. Den fantastiske egenskapen til skjulte CoT-er er at selv om de starter forankret i språk vi kan tolke, er den skalerbare optimaliseringsprosedyren ikke i strid med observatørens evne til å verifisere modellens intensjon - i motsetning til for eksempel direkte tilsyn med en belønningsmodell. Spenningen her er at hvis CoT-ene ikke var skjult som standard, og vi ser på prosessen som en del av AIs utdata, er det mye insentiv (og i noen tilfeller nødvendighet) til å sette tilsyn på den. Jeg tror vi kan jobbe mot det beste fra begge verdener her - trene modellene våre til å være gode til å forklare deres interne resonnement, men samtidig beholde evnen til å verifisere det av og til. CoT-trofasthet er en del av en bredere forskningsretning, som er trening for tolkbarhet: å sette mål på en måte som trener i det minste deler av systemet til å forbli ærlig og overvåkelig med skala. Vi fortsetter å øke investeringene våre i denne forskningen ved OpenAI.
Bowen Baker
Bowen Baker16. juli, 00:09
Moderne resonneringsmodeller tenker på vanlig engelsk. Å overvåke tankene deres kan være et kraftig, men skjørt, verktøy for å overvåke fremtidige AI-systemer. Jeg og forskere på tvers av mange organisasjoner mener vi bør jobbe for å evaluere, bevare og til og med forbedre CoT-overvåkningen.
264,15K