Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
gpt-oss-120b çok iyi
Gemini Pro 2.5'i burada bağlar ve %98.9 daha ucuzdur


26 May 2025
Sudoku tabanlı akıl yürütme kıyaslaması duyurumuzun ardından, akıl yürütme yeteneklerindeki iyileştirmeleri izlemek için en son modelleri değerlendiriyoruz.
Bugün, Sudoku-Bench Liderlik Tablosunu başlatıyoruz:
Yeni teknik rapor:
Artık yeni model ilerlemesini canlı Liderlik Tablomuzda takip edebilirsiniz. Şimdiye kadar kıyasladığımız modellerden: OpenAI'nin o3 Mini High'ı genel olarak lider. İlginç bir şekilde, Gemini 2.5 Pro, daha zor 6x6 bulmacalarda daha iyisini yapar! Bununla birlikte, o3, 9x9 Sudoku'lardan herhangi birini çözen tek modeldir, ancak yalnızca %2.9'u ve yalnızca vanilya Sudoku'sudur.
En önemlisi, test edilen HİÇBİR model henüz güçlü, yaratıcı akıl yürütme gerektiren 9x9'ları fethedemez. Bu kıyaslama büyük bir zorluk olmaya devam ediyor! Karşılaştırma, metodoloji ve bulgularımız hakkında daha ayrıntılı bilgi edinmek için teknik raporumuza göz atın.
Sudoku-Bench'te bir modeli test etmek ister misiniz? Çok basit! Skor tablosunu ziyaret edin. Bir bulmaca seçin. Herhangi bir modele yapıştırmak için bir istem (bulmaca + talimatlar) oluşturuyoruz. Testlerimizden örnek akıl yürütme izlerini de keşfedin!

> o3, 9x9 Sudokus'tan herhangi birini çözen tek modeldir
GPT-OSS-120B ayrıca 9×9'ları (%1,4) çözebilir. Peval'de herhangi bir 9×9'u çözen diğer tek model GPT 5'tir
1,96K
En İyiler
Sıralama
Takip Listesi
