Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evet, bana göre para kazanmak için ne yaptıklarını bile göremiyorum, sanki popüler bir kıyasa çıktılar ve şimdi kazanmak için ödeme yapıyorlar, başka bir sebep göremiyorum ki bu kadar gelir elde edebilsinler ama müşterilerin onlara ne için ödeme yaptıklarına dair detaylar hiç yok.
Başlangıçta açık modelleri test etmek için bir yol olarak başladı ama oraya girmek için son denememiz görmezden gelindi ve aylarca geciktirildi, meta ise yüzlerce modeli özellikle değerlendirmeleri maksimuma çıkarmak için optimize ediyordu ve ondan sonra göndermeyi bıraktık. Lmarena'nın faydalı bir ölçüt olduğuna çok uzun zaman önce inanmayı bıraktım ve büyük Kansas'tan özel olarak duydum ki bu şeyden nefret ediyorlar, modelleri daha düşük kaliteye sürükleyerek onu yenmek istiyor. Yani, bilmiyorum, hepsi bu

7 Oca 08:47
LMArena hakkındaki yorumum çoğundan farklı.
Buradaki manşet 4 ay içinde 30 milyon dolar ARR olacağı. Ama ben daha çok altındaki iş modeliyle ilgileniyorum.
LMArena imkansız gibi gelen bir şey inşa etti. Yapay zekanın en büyük pazarlama kolu haline gelen, ardından laboratuvarların nasıl ücretlendirileceğini çözen kitlesel kaynaklı bir değerlendirme platformu.
Matematiği açıklayayım.
7 ayda 600 milyon dolardan 1,7 milyar dolara çıktılar. Bu, %183 değerleme büyümesi demek. 30 milyon dolarlık ARR ile 57x gelirle işlem görüyorlar. Ancak koşu oranı 4 ayda 0 dolardan 30 milyon dolara yükseldi.
Bu, 18 ay önce var olmayan bir kategoride aylık 7,5 milyon dolarlık YENİ gelir demek.
Gerçek hikaye, onların yaptıkları volandır.
35 milyon kullanıcı oyun oynamak için geliyor. İki anonim yapay zeka yanıtı, favorinizi seçin. Bu kullanıcılar ayda 60 milyon sohbet üretiyor. Bu veriler sektörde en güvenilir kıyaslama haline geliyor. OpenAI, Google, xAI hepsinin modellerinin o liderlik tablosunda olması gerekiyor. Yani değerlendirilmek için ÜCRET ÖDÜYORLAR.
Bu dahiyane çünkü müşteriler aynı zamanda test edilen üründür.
Daha zor soru ise bunun geçerli olup olmadığı.
Cohere, AI2, Stanford ve Waterloo, Nisan ayında LMArena'yı Meta'nın Llama 4'ten önce 27 model varyantını test etmesine izin verdiği ve en kötü puanları sakladığı için suçlayan 68 sayfalık bir makale yayımladı. "Liderlik Tablosu İlüzyonu" makalesi temelde oyun alanının büyük laboratuvarlara yöneldiğini söylüyordu.
LMArena bunu yanlış nitelendirdi. Ama Llama 4 durumu karmaşıktı. Meta, Arena performansı için özel bir model ayarladı, lider lideri oldu, ardından daha kötü performans gösteren başka bir modeli halka tanıttı.
İşte burada işler biraz karışıyor.
Goodhart Yasası, bir ölçüm hedef haline geldiğinde iyi bir ölçüm olmaktan çıkar. LMArena artık o kadar önemli ki laboratuvarlar özel olarak ona göre optimize ediyor. Daha uzun yanıtlar kazanır. Madde puanları kazanır. Yanlış olduğunda bile özgüven kazanır.
Platform bunu kabul etti. Markdown slop'unu cezalandırmak için "stil kontrolü" skor ekliyorlardı. Claude yükseldi. GPT-4o-mini aşağıya indi.
Ama temel gerilim devam ediyor.
LMArena aynı laboratuvarlardan yılda 30 milyon dolar+ kazanıyor. OpenAI, Google, xAI müşterilerdir. Hakem oyuncular tarafından ödeme alıyor.
Kamu liderlik tablosunun "bir hayır kurumu" olduğunu ve yerleştirme için ödeme yapamayacağınızı söylüyorlar. Onlara inanıyorum. Ama teşvik yapısı... karmaşık.
Değerleme, piyasanın ticari başarı ile algılanan tarafsızlık arasında bir iğne geçirebileceğini düşündüğünü söylüyor.
Peter Deng'in yönetim kuruluna katılması ilginç. OpenAI'de Tüketici Ürünleri Başkan Yardımcısı. Şimdi Felicis'ten GP bu turda öncülük ediyor. Arena yerleştirmesinin model pazarlaması için ne kadar değerli olduğunu tam olarak biliyor.
Ion Stoica, kurucu ortak olarak güvenilirlik merkezidir. Berkeley profesörü, Spark ve Ray'i yaratmış, Sky Computing Lab'ı yönetmektedir. Bu rastgele bir başlangıç değil. Bu, dağıtık sistemleri bilen araştırmacılar tarafından inşa edilen bir altyapı.
7 ayda 250 milyon dolar toplandı. 40+ kişilik bir ekip. 150 ülkede aylık 5 milyon kullanıcı.
Değerlendirme yeni milyar dolarlık bir kategoriye dönüştü.
Büyük laboratuvarlardan, büyük Kansas'tan değil, haha, bence birinin bu otomatik düzeltmeleri çok daha fazla jeton üzerinde eğitmesi gerekiyor...
18
En İyiler
Sıralama
Takip Listesi
