I dag deler vi hvordan vår interne overvåking av feiljusteringer fungerer hos OpenAI – flott arbeid av @Marcus_J_W! 1. Vi overvåker 99,9 % av all intern trafikk fra en kodeagent 2. Vi bruker frontier-modeller for deteksjon /med CoT-tilgang 3. Ingen tegn til intriger ennå, men oppdage annen uredelighet