Kami membangun ProfBench untuk meningkatkan standar LLM - secara harfiah. Di @NVIDIA, kami bekerja sama dengan pakar domain untuk membuat tolok ukur yang jauh melampaui hal-hal sepele dan jawaban singkat. ProfBench menguji LLM pada tugas-tugas kompleks multi-langkah yang menuntut jenis penalaran, sintesis, dan kejelasan yang Anda harapkan dari fisikawan PhD atau konsultan MBA. 🌎 Ini bukan hanya penurunan himpunan data. Ini adalah kolaborasi global: 38 profesional di 8 negara menyumbangkan lebih dari 7,000 rubrik yang ditulis oleh para ahli di seluruh keuangan MBA 💵, MBA 📊 konsultasi, PhD 🧪kimia dan PhD 🚀 fisika. 🧗Setiap rubrik prompt dan penilaian dibuat dengan tangan, membutuhkan puluhan jam kerja yang berdedikasi dan terfokus. Sekarang didukung penuh di NeMo Evaluator SDK, ProfBench memungkinkan evaluasi berbasis rubrik yang dapat direproduksi dan perbandingan model berdampingan. 🔗 ProfBench pada @HuggingFace 🔗 SDK Evaluator NeMo Saya sangat bangga dengan tim yang membuat ini terjadi. Mari terus mendorong apa yang bisa dilakukan AI. Pekerjaan yang dilakukan dengan @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC