Ya, maksud saya bagi saya, saya bahkan tidak melihat apa yang mereka lakukan untuk menghasilkan uang, rasanya seperti mereka membuat tolok ukur yang menjadi populer dan sekarang membayar untuk menang, saya tidak melihat alasan lain mereka bahkan dapat memerintahkan pendapatan sebanyak itu untuk ini tetapi saya tidak memiliki rincian tentang apa yang dibayar pelanggan kepada mereka sama sekali. Ini dimulai sebagai cara untuk menguji model terbuka tetapi upaya terakhir kami untuk masuk ke sana diabaikan dan ditunda selama berbulan-bulan sementara meta menguji ratusan model untuk mengoptimalkan secara khusus seputar memaksimalkan eval, dan setelah itu kami berhenti mengirimkan. Saya menyerah percaya lmarena adalah metrik yang berguna sejak lama dan telah mendengar secara pribadi dari Kansas besar bahwa mereka membenci hal itu, bahwa itu mendorong model mereka ke kualitas yang lebih rendah untuk mengalahkannya. Jadi, idk, itu saja
Aakash Gupta
Aakash Gupta7 Jan, 08.47
Bacaan saya di LMArena berbeda dari kebanyakan. Judul di sini adalah $30 juta ARR dalam 4 bulan. Tapi saya lebih tertarik dengan model bisnis di bawahnya. LMArena membangun sesuatu yang terasa mustahil. Platform evaluasi crowdsourced yang menjadi pengungkit pemasaran tunggal terbesar dalam AI, kemudian menemukan cara mengisi daya laboratorium menggunakannya. Izinkan saya menguraikan matematikanya. Mereka naik dari $600 juta menjadi $1,7 miliar dalam 7 bulan. Itu adalah pertumbuhan valuasi 183%. Dengan $30 juta ARR, mereka diperdagangkan dengan pendapatan 57x. Tetapi run rate tumbuh dari $0 menjadi $30 juta dalam 4 bulan. Itu adalah $7.5 juta per bulan pendapatan BARU dalam kategori yang tidak ada 18 bulan yang lalu. Kisah sebenarnya adalah roda gila yang mereka buat. 35 juta pengguna muncul untuk bermain game. Dua respons AI anonim, pilih favorit Anda. Pengguna tersebut menghasilkan 60 juta percakapan per bulan. Data tersebut menjadi tolok ukur paling tepercaya di industri. OpenAI, Google, xAI semuanya membutuhkan model mereka di papan peringkat itu. Jadi mereka MEMBAYAR untuk dievaluasi. Ini jenius karena pelanggan juga merupakan produk yang diuji. Pertanyaan yang lebih sulit adalah apakah ini berlaku. Cohere, AI2, Stanford, dan Waterloo menjatuhkan makalah setebal 68 halaman pada bulan April yang menuduh LMArena membiarkan Meta menguji 27 varian model sebelum Llama 4 sambil menyembunyikan skor terburuk. Makalah "Ilusi Papan Peringkat" pada dasarnya mengatakan lapangan bermain dicurangi ke laboratorium besar. LMArena menyebutnya tidak akurat. Tapi situasi Llama 4 berantakan. Meta menyetel model khusus untuk pertunjukan Arena, menduduki puncak leaderbaord, lalu merilis model berbeda kepada publik yang tampil lebih buruk. Di sinilah itu saling berselingkat. Hukum Goodhart mengatakan ketika suatu tindakan menjadi target, itu tidak lagi menjadi ukuran yang baik. LMArena sekarang sangat penting sehingga laboratorium mengoptimalkan secara khusus untuk itu. Respons yang lebih panjang menang. Poin-poin menang. Kepercayaan diri menang bahkan ketika salah. Platform mengakui hal ini. Mereka menambahkan skor "kontrol gaya" untuk menghukum penurunan harga slop. Claude bergerak. GPT-4o-mini bergerak ke bawah. Tapi ketegangan inti tetap ada. LMArena menghasilkan $30 juta+ per tahun dari laboratorium yang sama dengan yang dinilainya. OpenAI, Google, xAI adalah pelanggan. Wasit dibayar oleh para pemain. Mereka mengatakan papan peringkat publik adalah "amal" dan Anda tidak dapat membayar penempatan. Saya percaya mereka. Tapi struktur insentifnya adalah... rumit. Penilaian mengatakan pasar berpikir mereka dapat mengikat jarum antara kesuksesan komersial dan netralitas yang dirasakan. Peter Deng bergabung dengan dewan itu menarik. Mantan VP Produk Konsumen di OpenAI. Sekarang GP di Felicis memimpin putaran ini. Dia tahu persis betapa berharganya penempatan Arena untuk pemasaran model. Ion Stoica sebagai salah satu pendiri adalah jangkar kredibilitas. Profesor Berkeley, menciptakan Spark and Ray, menjalankan Sky Computing Lab. Ini bukan startup acak. Ini adalah infrastruktur yang dibangun oleh para peneliti yang memahami sistem terdistribusi. $250 juta dikumpulkan dalam 7 bulan. Tim 40+. 5 juta pengguna bulanan di 150 negara. Evaluasi baru saja menjadi kategori miliaran dolar.
Dari laboratorium besar bukan kansas besar lmao saya pikir seseorang perlu melatih koreksi otomatis ini pada lebih banyak token ...
14