Wolfram'ın mükemmel "ChatGPT Ne Yapıyor..." yazısını okuyun. (h/t @danielrock). Dilin nasıl çalıştığı hakkında çok şey öğrendiğimizi, sadece 175 milyar ağırlıkla GPT3'ün onu bu kadar iyi taklit edebilmesinden öğrendiğimizi yazıyor. Bu, hesaplama açısından düşündüğümüzden çok daha basit olduğu anlamına geliyor. Peki ya matematik? Bu yazıldığı dönemde (2023), GPT matematikte hâlâ çok kötüydü. Modeller, ilk akıl yürütme modeli (o1) çıktığında matematikte çok (çok) iyi hale geldi; bu model sadece kaba kuvvet ön eğitiminden çok daha fazla pekiştirme öğrenmeye dayanıyordu. Acaba bu matematik hakkında ne söylüyor? Kavramsal olarak, dil matematikten çok daha "bulanıktır": bir cümlenin aynı noktasında birden fazla kelime "doğru" gibi gelebilir. Bu, olasılıksal LLM mimarisinin çalışmasını sağlayan şeydir. Matematik daha az belirsiz. Belki de bu yüzden daha "kural temelli" RL adımı çok önemliydi. Ama bu aynı zamanda resmi matematiğin düşündüğümüzden daha az hesaplama açısından karmaşık olduğu anlamına geliyor. Düşünce? @littmath @alz_zyd_