Henüz hiç kimsenin, Codex veya Claude Code gibi bir ajanın oyunu verimli bir şekilde kontrol etmesine ve durumu ve ilerlemeyi izlemesine izin verebilecek bir Dwarf Fortress MCP sunucusu yapmamış olmasına biraz şaşırdım. Kendim hiç oynamadım, sadece indirdim ve yaklaşık 10 yıl önce kısaca kontrol ettim, ama hakkında okumaktan zevk aldım. Cüceleri ne kadar süre hayatta ve başarılı tutabileceğini görmek için bir LLM'nin çok iyi bir testi olacak gibi geliyor. Her oyun sonunda tüm cücelerin ölmesine neden olan basamaklı bir felaketle sonuçlandığından, bunun doğal bir durma noktası olmalıdır, bu da onu iyi bir kıyaslama adayı yapar. En azından benim anladığım bu (oyuncuların sloganı "Kaybetmek eğlencelidir"). Bu oyunlarla iyi bir iş çıkarmak, araç çağırma doğruluğuna ve sürekli uzun görev tutarlılığına, ayrıca karmaşık bir sistemin dinamiklerini izleme ve anlama ve sorunları öngören ve bunlara karşı koyan zamanında müdahaleler yapma becerisine dayanacaktır. Ve terminale özgü olduğu için, çok modlu görüntü işlemeye ihtiyaç duymadan normal belirteçler kullanılarak verimli bir şekilde iletilebilir ve işlenebilir, bu da onu diğer oyunlardan çok daha verimli hale getirir. Ayrıca, hiçbir AI laboratuvarının bunun için eğitim almadığını biliyorsunuz (henüz!), bu nedenle "benchmaxxing" tarafından lekelenmedi.