قراءتي ل LMArena مختلفة عن معظم الناس. العنوان هنا هو 30 مليون دولار ARR خلال 4 أشهر. لكنني مهتم أكثر بنموذج العمل الذي تحته. LMArena بنت شيئا يبدو مستحيلا. منصة تقييم جماعية أصبحت أكبر رافعة تسويقية في الذكاء الاصطناعي، ثم اكتشفت كيفية تحميل المختبرات التي تستخدمها. دعوني أوضح الحسابات. انتقلوا من 600 مليون دولار إلى 1.7 مليار دولار خلال 7 أشهر. هذا يعني نمو تقييم بنسبة 183٪. بسعر 30 مليون دولار ARR، يتداولون بإيرادات 57 مرة. لكن معدل التشغيل ارتفع من 0 دولار إلى 30 مليون دولار خلال 4 أشهر. هذا يعني 7.5 مليون دولار شهريا من الإيرادات الجديدة في فئة لم تكن موجودة قبل 18 شهرا. القصة الحقيقية هي دولاب الموازنة الذي صنعوه. 35 مليون مستخدم يحضرون للعب لعبة. ردان مجهولان الذكاء الاصطناعي المجهولين، اختر المفضل لديك. هؤلاء المستخدمون يولدون 60 مليون محادثة شهريا. تصبح هذه البيانات المعيار الأكثر ثقة في الصناعة. OpenAI وGoogle وxAI جميعهم بحاجة إلى نماذجهم في لوحة المتصدرين. لذا هم يدفعون مقابل التقييم. إنه عبقري لأن العملاء هم أيضا المنتج الذي يتم اختباره. السؤال الأصعب هو ما إذا كان هذا سيصمد. أصدرت كوهير، AI2، ستانفورد، ووترلو ورقة بحثية من 68 صفحة في أبريل تتهم LMArena بالسماح لMeta باختبار 27 نسخة من الطراز قبل Llama 4 مع إخفاء أسوأ النتائج. ورقة "وهم لوحة المتصدرين" قالت بشكل أساسي إن الميدان موجه لصالح مختبرات كبيرة. LMArena وصفته بأنه غير دقيق. لكن وضع لاما 4 كان فوضويا. قامت ميتا بضبط نموذج مخصص لأداء الساحة، وتفوق على قائد القائد، ثم أصدرت نموذجا مختلفا للجمهور كان أداؤه أسوأ. هنا تبدأ الأمور في الشعور بالجاذبية. يقول قانون جودهارت إنه عندما يصبح إجراء هدفا، فإنه يتوقف عن كونه مقياسا جيدا. LMArena أصبحت الآن مهمة جدا لدرجة أن المختبرات تقوم بتحسين مهاراتها خصيصا لها. الردود الأطول هي الفائزة. النقاط النقطية هي الفائزة. الثقة تنتصر حتى عندما تكون خاطئة. وقد أقرت المنصة بذلك. أضافوا "التحكم في الأسلوب" للتسجيل لمعاقبة الأخطاء العشوائية. تقدم كلود. انزل GPT-4o-mini. ...