Bugün OpenAI'de iç hizalanma izlememizin nasıl çalıştığını paylaşıyoruz – @Marcus_J_W tarafından harika bir iş! 1. Tüm dahili kodlama ajanı trafiğinin %99,9'unu izliyoruz 2. CoT erişimi için tespit için sınır modelleri kullanıyoruz 3. Henüz bir plan belirtisi yok, ancak başka kötü davranışlar tespit edildi