Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Xây dựng LMArena.
Thống kê hộp đen, đánh giá mô hình.
@Berkeley_EECS Tiến sĩ, cựu nghiên cứu sinh viên @GoogleDeepMind và cựu sinh viên @stanford_ee.
Bản phát hành này thật sự rất lớn. Đây là một trong những bản cập nhật lớn nhất của LMArena trong năm nay!
Code Arena là thế hệ tiếp theo của các đánh giá lập trình, bắt đầu với các nhiệm vụ phát triển web.
Tại đây, bạn có thể sử dụng các mô hình để xây dựng các trang web tương tác và chia sẻ chúng với bạn bè. Các liên kết là vĩnh viễn, vì vậy bạn có thể ví dụ như xây dựng một trò chơi và chơi nó bất cứ khi nào bạn muốn.
Hãy xem hai mô hình -- @claudeai Haiku và @grok-Code-Fast -- cạnh tranh để xây dựng một thiên hà. Trong trường hợp này, tôi thích hiệu ứng "star-wars" của Grok!

lmarena.ai13 thg 11, 2025
🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step.
Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!
144
🏆BẢNG XẾP HẠNG MỚI CỦA LMARENA🏆
🤓Chuyên gia
💻 Dịch vụ Phần mềm & CNTT
✍️ Viết, Văn học, & Ngôn ngữ
🔬 Khoa học Đời sống, Vật lý, & Xã hội
🎭 Giải trí, Thể thao, & Truyền thông
📈 Kinh doanh, Quản lý, & Hoạt động Tài chính
🧮 Toán học
⚖️ Pháp lý & Chính phủ
🩺 Y tế & Chăm sóc sức khỏe
Các đánh giá về tính hữu ích kinh tế của AI (như GDPval) ngày càng trở nên quan trọng, nhưng tốn kém để thu thập. Chúng tôi đã làm việc với cộng đồng LMArena gồm hàng triệu người đóng góp hàng tháng để thu thập dữ liệu nghề nghiệp và chuyên gia một cách tự nhiên, giải quyết vấn đề khả năng mở rộng.
>5% người dùng LMArena là chuyên gia, và một tỷ lệ lớn các yêu cầu của LMArena nằm trong các ngành có giá trị kinh tế: Kỹ sư phần mềm, sinh viên/nghiên cứu viên, nhà tiếp thị/nhà thiết kế, bác sĩ, luật sư, và nhiều hơn nữa. Điều này cho phép chúng tôi xây dựng các bảng xếp hạng trực tuyến trong các danh mục này dựa trên phản hồi mới mỗi ngày. Nó thể hiện sức mạnh của hệ thống phản hồi từ thế giới thực mà chúng tôi đã tạo ra tại @arena!


lmarena.ai6 thg 11, 2025
🚀 Introducing Arena Expert: a new LMArena evaluation framework to identify the toughest, most expert-level prompts from real users, powering a new Expert leaderboard.
We also introduce Occupational Categories that underlie eight new leaderboards:
💻 Software & IT Services
✍️ Writing, Literature, & Language
🔬 Life, Physical, & Social Science
🎭 Entertainment, Sports, & Media
📈 Business, Management, & Financial Ops
🧮 Mathematical
⚖️ Legal & Government
🩺 Medicine & Healthcare
Explore how models perform across fields in thread 🧵 👇

957
Văn phòng LMArena hôm nay đang sôi động. Môi trường ở đây rất siêu tuyến tính. Chúng tôi đang tương tác một cách xây dựng, luôn thúc đẩy nhau học hỏi và vượt qua những gì chúng tôi nghĩ là giới hạn của mình.
Đặc điểm số 1 mà chúng tôi tìm kiếm khi tuyển dụng là "Sự Xuất Sắc." Sản xuất công việc mỗi ngày đáp ứng tiêu chuẩn kỹ thuật cao nhất về tay nghề, hiệu suất và độ tin cậy. Còn nhiều yếu tố khác nữa, nhưng không bao giờ thỏa hiệp về sự xuất sắc. Kết quả là, mọi người trong đội ngũ của chúng tôi đều là những chuyên gia sâu sắc. Điều này là cần thiết để xây dựng các đánh giá chất lượng với sự tự tin.
Sự xuất sắc sinh ra sự xuất sắc. Không ai muốn làm việc trong một môi trường có nhiều người chán nản -- điều đó giết chết động lực. Chúng tôi luôn nâng cao tiêu chuẩn, và đây là điều dẫn đến cảm giác năng lượng. Điều này rất hiếm.
Nếu bạn quan tâm đến việc làm việc trong môi trường như thế này, hãy gửi cho tôi một tin nhắn. Chúng tôi luôn tìm kiếm những người có thể nâng cao tiêu chuẩn lên một bậc cao hơn.
125
Hàng đầu
Thứ hạng
Yêu thích
