Şimdi kuşlardan, iç değerlendirmelerin grok 4 Heavy'nin biraz üzerinde gpt5 geçirdiğine dair birkaç fısıltı duyuyorum. Bununla birlikte, değerlendirmeler bir modelin yalnızca bir tarafını anlatır, ancak herhangi bir önemli ajan veya başka iyileştirmeler elde edip etmediğimizi merak ediyorum.