Eğlenceli Gerçek: Çoğu 8b boyutlu açık ağırlık modelini (qwen 3 gibi) doğrudan aracılık kıyaslamaları için test setinde (TerminalBench gibi) RLing işe yaramaz. Makul bir örnekleme bütçesi dahilinde doğru cevabı tahmin edemiyorlar. Bu kıyaslamalarda önemsiz bir puan almak için ilk 8b modelini görmek için sabırsızlanıyorum!