Oggi condividiamo come funziona il monitoraggio del disallineamento interno in OpenAI – ottimo lavoro di @Marcus_J_W! 1. Monitoriamo il 99,9% di tutto il traffico degli agenti di codifica interni 2. Utilizziamo modelli all'avanguardia per la rilevazione /w accesso CoT 3. Nessun segno di complotto finora, ma rileviamo altri comportamenti scorretti