Jeg deler Leikes bekymringer her (og andre), men er helt enig i at dette er en utmerket ting å gjøre, og jeg støtter herved artikkelen.
Jan Leike
Jan Leike16. juli, 04:27
Hvis du ikke trener CoT-ene dine til å se fine ut, kan du få litt sikkerhet ved å overvåke dem. Dette virker bra å gjøre! Men jeg er skeptisk til at dette vil fungere pålitelig nok til å være bærende i en sikkerhetssak. I tillegg til at RL skaleres opp, forventer jeg at CoT-er blir mindre og mindre lesbare.
12,91K