Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LMArena hakkındaki yorumum çoğundan farklı.
Buradaki manşet 4 ay içinde 30 milyon dolar ARR olacağı. Ama ben daha çok altındaki iş modeliyle ilgileniyorum.
LMArena imkansız gibi gelen bir şey inşa etti. Yapay zekanın en büyük pazarlama kolu haline gelen, ardından laboratuvarların nasıl ücretlendirileceğini çözen kitlesel kaynaklı bir değerlendirme platformu.
Matematiği açıklayayım.
7 ayda 600 milyon dolardan 1,7 milyar dolara çıktılar. Bu, %183 değerleme büyümesi demek. 30 milyon dolarlık ARR ile 57x gelirle işlem görüyorlar. Ancak koşu oranı 4 ayda 0 dolardan 30 milyon dolara yükseldi.
Bu, 18 ay önce var olmayan bir kategoride aylık 7,5 milyon dolarlık YENİ gelir demek.
Gerçek hikaye, onların yaptıkları volandır.
35 milyon kullanıcı oyun oynamak için geliyor. İki anonim yapay zeka yanıtı, favorinizi seçin. Bu kullanıcılar ayda 60 milyon sohbet üretiyor. Bu veriler sektörde en güvenilir kıyaslama haline geliyor. OpenAI, Google, xAI hepsinin modellerinin o liderlik tablosunda olması gerekiyor. Yani değerlendirilmek için ÜCRET ÖDÜYORLAR.
Bu dahiyane çünkü müşteriler aynı zamanda test edilen üründür.
Daha zor soru ise bunun geçerli olup olmadığı.
Cohere, AI2, Stanford ve Waterloo, Nisan ayında LMArena'yı Meta'nın Llama 4'ten önce 27 model varyantını test etmesine izin verdiği ve en kötü puanları sakladığı için suçlayan 68 sayfalık bir makale yayımladı. "Liderlik Tablosu İlüzyonu" makalesi temelde oyun alanının büyük laboratuvarlara yöneldiğini söylüyordu.
LMArena bunu yanlış nitelendirdi. Ama Llama 4 durumu karmaşıktı. Meta, Arena performansı için özel bir model ayarladı, lider lideri oldu, ardından daha kötü performans gösteren başka bir modeli halka tanıttı.
İşte burada işler biraz karışıyor.
Goodhart Yasası, bir ölçüm hedef haline geldiğinde iyi bir ölçüm olmaktan çıkar. LMArena artık o kadar önemli ki laboratuvarlar özel olarak ona göre optimize ediyor. Daha uzun yanıtlar kazanır. Madde puanları kazanır. Yanlış olduğunda bile özgüven kazanır.
Platform bunu kabul etti. Markdown slop'unu cezalandırmak için "stil kontrolü" skor ekliyorlardı. Claude yükseldi. GPT-4o-mini aşağıya indi.
...
En İyiler
Sıralama
Takip Listesi
