OpenAI tocmai a lansat GPT-5.4 și l-am testat în Cline toată săptămâna. Am observat o creștere a utilizării calculatorului și a cunoștințelor generale, iar benchmark-urile confirmă acest lucru: OSWorld (evaluarea utilizării calculatorului) a crescut de la 47,3% → 75,0%, depășind performanța umană la 72,4%! 🧵
GPT-5.4 are, de asemenea, o fereastră de context de 1M, dar evaluările lor arată că needle-in-a-haystack (MRCR v2) obține un scor de 97% la 16-32K token-uri, scade la 57% la 256-512K și doar 36% la 512K-1M. Așa că e o idee bună să compactezi regulat!
20