Vi bygde ProfBench for å heve standarden for LLM-er - bokstavelig talt. Hos @NVIDIA jobbet vi med domeneeksperter for å lage en benchmark som går langt utover trivia og korte svar. ProfBench tester LLM-er på komplekse flertrinnsoppgaver som krever den typen resonnement, syntese og klarhet du forventer av en doktorgradsfysiker eller MBA-konsulent. 🌎 Dette er ikke bare et datasettslipp. Det er et globalt samarbeid: 38 fagfolk i 8 land bidro med over 7,000 ekspertskrevne rubrikker på tvers av finans MBA 💵, rådgivende MBA 📊, kjemi PhD 🧪og fysikk PhD 🚀. 🧗Hver rask og graderende rubrikk var håndlaget, og krevde titalls timer med dedikert og fokusert arbeid. ProfBench støttes nå fullt ut i NeMo Evaluator SDK, og muliggjør reproduserbare, rubrikkbaserte evalueringer og side-ved-side-modellsammenligninger. 🔗 ProfBench om @HuggingFace 🔗 NeMo Evaluator SDK Jeg er så stolt av teamet som fikk dette til. La oss fortsette å presse på hva AI kan gjøre. Arbeid utført med @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC