Birkaç açıklama yapmak istedim, bunların makalemizde net olduğuna inanıyoruz ama orijinal gönderimde (@METR_Evals verilerini yeniden analiz etmek) değil. Katkımız, ilerlemeyi farklı yenilikler etrafında sigmoidlerin çoklayıcı ürünü olarak öne sürmektir. METR verileri göz önüne alındığında, bunları temel yetenekler (veri/model boyutu) ve mantık yürütme iyileştirmelerine ayırdık. Bu ürünün, gözlemlediğimiz küçük veri setlerine benzer bir *örneklem* uyumu sağladığını gösteriyoruz. Ancak sonuçlar çok farklı! Modelimizde, katlanarak ilerleme görmek için sürekli yeniliklere (akıl yürütmeye benzer) ihtiyaç duyuyoruz. Bu, üstel ilerlemeyi göz ardı etmiyoruz ya da sigmoidlerin ürünümüz doğru model olduğu anlamına gelmez. Sadece çok az nokta ve çok farklı sonuçları olan birden fazla olası temel model olduğunu söylemek gerekir. Ürünümüz sigmoid uyumu GPT 5.2 ve/veya Gemini 3 pro tutarken gerçekten çok iyi oturuyor. Claude Opus 4.5'i de ayrıca tutarsak daha kötü görünüyoruz ama yine de makul. Amacımız, birkaç veri noktasında OOS metrikleri hakkında tartışmak değil, mevcut tahminlerin kırılgan olduğunu ve farklı yeniliklerin ardışık sırasını modellemediğini vurgulamak. (X civarında birkaç başka uyum var, ama önerdiğimiz sigmoid ürünü kullanmıyorlar gibi görünüyor, bu yüzden orada neler olduğunu söyleyemem...) Önceki yazım için özürlüğüm var – umarız insanlar makaleyi okur!