Astăzi împărtășim cum funcționează monitorizarea internă a nealinierii la OpenAI – o muncă excelentă din partea @Marcus_J_W! 1. Monitorizăm 99,9% din tot traficul intern al agenților de codare 2. Folosim modele frontieră pentru detectarea /w acces CoT 3. Încă nu există semne de intrigă, dar detectează alte comportamente necorespunzătoare