Dziś dzielimy się tym, jak działa nasze wewnętrzne monitorowanie niezgodności w OpenAI – świetna praca @Marcus_J_W! 1. Monitorujemy 99,9% całego wewnętrznego ruchu agentów kodujących 2. Używamy modeli frontier do wykrywania z dostępem CoT 3. Na razie nie ma oznak spiskowania, ale wykrywamy inne niewłaściwe zachowania