OpenAI è stata chiara nel dire che le valutazioni dovrebbero "rendere obiettivi vaghi specifici ed espliciti," e che le valutazioni di frontiera devono essere abbinate a valutazioni contestuali che corrispondano a flussi di lavoro reali invece di semplici ambienti di prova: Ciò che @shyamalanadkat, Responsabile delle Valutazioni Applicate @OpenAI, descrive è lo stesso ciclo che vogliamo per gli agenti di codifica con cline-bench: un insieme condiviso di compiti di codifica difficili e reali in cui i modelli hanno avuto difficoltà e gli esseri umani hanno dovuto intervenire, confezionato come ambienti riproducibili in modo che laboratori e team possano specificare come appare un "ottimo" risultato, misurare le prestazioni in condizioni reali e migliorare apprendendo da casi di fallimento concreti: Se vuoi il contesto completo su come OpenAI pensa alle valutazioni, il primer è qui: