Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Ừ, ý tôi là tôi thậm chí không thấy họ làm gì để kiếm tiền, cảm giác như họ đã tạo ra một tiêu chuẩn trở nên phổ biến và giờ thì phải trả tiền để thắng, tôi không thấy lý do nào khác mà họ có thể thu được nhiều doanh thu như vậy cho điều này nhưng tôi không có chi tiết về những gì khách hàng đang trả cho họ cả. Nó bắt đầu như một cách để kiểm tra cảm giác các mô hình mở nhưng nỗ lực cuối cùng của chúng tôi để tham gia vào đó đã bị bỏ qua và trì hoãn trong nhiều tháng trong khi meta đang thử nghiệm hàng trăm mô hình để tối ưu hóa cụ thể xung quanh việc tối đa hóa các đánh giá, và sau đó chúng tôi đã ngừng gửi. Tôi đã từ bỏ việc tin rằng lmarena là một chỉ số hữu ích từ rất lâu rồi và đã nghe riêng từ một người lớn ở Kansas rằng họ ghét cái đó, rằng nó đang khiến các mô hình của họ giảm chất lượng để đánh bại nó. Vậy, tôi không biết, đó là tất cả.

Cách nhìn của tôi về LMArena khác với hầu hết mọi người. Tiêu đề ở đây là 30 triệu đô la ARR trong 4 tháng. Nhưng tôi quan tâm hơn đến mô hình kinh doanh bên dưới. LMArena đã xây dựng một cái gì đó cảm thấy không thể. Một nền tảng đánh giá crowdsourced đã trở thành đòn bẩy marketing lớn nhất trong AI, sau đó tìm ra cách tính phí cho các phòng thí nghiệm sử dụng nó. Hãy để tôi phân tích toán học. Họ đã tăng từ 600 triệu đô la lên 1,7 tỷ đô la trong 7 tháng. Đó là mức tăng trưởng định giá 183%. Với 30 triệu đô la ARR, họ đang giao dịch ở mức 57 lần doanh thu. Nhưng tỷ lệ tăng trưởng đã từ 0 lên 30 triệu đô la trong 4 tháng. Đó là 7,5 triệu đô la doanh thu MỚI mỗi tháng trong một danh mục chưa tồn tại 18 tháng trước. Câu chuyện thực sự là vòng quay mà họ đã xây dựng. 35 triệu người dùng tham gia chơi một trò chơi. Hai phản hồi AI ẩn danh, chọn cái bạn thích nhất. Những người dùng đó tạo ra 60 triệu cuộc trò chuyện mỗi tháng. Dữ liệu đó trở thành tiêu chuẩn đáng tin cậy nhất trong ngành. OpenAI, Google, xAI đều cần mô hình của họ có mặt trong bảng xếp hạng đó. Vì vậy, họ TRẢ TIỀN để được đánh giá. Đó là sự thiên tài vì khách hàng cũng là sản phẩm đang được thử nghiệm. Câu hỏi khó hơn là liệu điều này có giữ vững được không. Cohere, AI2, Stanford và Waterloo đã phát hành một tài liệu 68 trang vào tháng 4 cáo buộc LMArena cho phép Meta thử nghiệm 27 biến thể mô hình trước Llama 4 trong khi che giấu những điểm số tệ nhất. Tài liệu "Illusion Leaderboard" cơ bản nói rằng sân chơi đã bị gian lận về phía các phòng thí nghiệm lớn. LMArena đã gọi đó là không chính xác. Nhưng tình huống Llama 4 thì rắc rối. Meta đã điều chỉnh một mô hình cụ thể cho hiệu suất Arena, đứng đầu bảng xếp hạng, sau đó phát hành một mô hình khác cho công chúng mà hoạt động kém hơn. Đây là nơi mọi thứ trở nên thú vị. Luật Goodhart nói rằng khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa. LMArena bây giờ QUAN TRỌNG đến mức các phòng thí nghiệm tối ưu hóa cụ thể cho nó. Phản hồi dài hơn thắng. Các điểm bullet thắng. Sự tự tin thắng ngay cả khi sai. Nền tảng đã thừa nhận điều này. Họ đã thêm điểm "kiểm soát phong cách" để phạt những lỗi markdown. Claude đã tăng lên. GPT-4o-mini đã giảm xuống. Nhưng căng thẳng cốt lõi vẫn còn. LMArena kiếm được hơn 30 triệu đô la mỗi năm từ cùng một phòng thí nghiệm mà họ đánh giá. OpenAI, Google, xAI là khách hàng. Trọng tài đang được trả tiền bởi các cầu thủ. Họ nói rằng bảng xếp hạng công khai là "một hoạt động từ thiện" và bạn không thể trả tiền để có vị trí. Tôi tin họ. Nhưng cấu trúc động lực thì... phức tạp. Định giá cho thấy thị trường nghĩ rằng họ có thể đi giữa thành công thương mại và sự trung lập được cảm nhận. Peter Deng gia nhập hội đồng quản trị là điều thú vị. Cựu Phó Chủ tịch Sản phẩm Người tiêu dùng tại OpenAI. Bây giờ là GP tại Felicis dẫn dắt vòng này. Ông biết chính xác giá trị của việc có mặt trong Arena đối với marketing mô hình. Ion Stoica với tư cách là đồng sáng lập là điểm tựa uy tín. Giáo sư Berkeley, tạo ra Spark và Ray, điều hành Phòng thí nghiệm Điện toán Sky. Đây không phải là một startup ngẫu nhiên. Đây là cơ sở hạ tầng được xây dựng bởi các nhà nghiên cứu hiểu biết về hệ thống phân tán. 250 triệu đô la đã được huy động trong 7 tháng. Đội ngũ hơn 40 người. 5 triệu người dùng hàng tháng trên 150 quốc gia. Đánh giá vừa trở thành một danh mục trị giá tỷ đô.

Từ những phòng thí nghiệm lớn chứ không phải Kansas lớn, lmao, tôi nghĩ ai đó cần phải huấn luyện những công cụ tự động sửa này trên nhiều token hơn...

Hàng đầu

Thứ hạng

Yêu thích