Abbiamo creato ProfBench per alzare l'asticella per i LLM - letteralmente. Presso @NVIDIA, abbiamo collaborato con esperti del settore per creare un benchmark che va ben oltre le curiosità e le risposte brevi. ProfBench testa i LLM su compiti complessi e a più fasi che richiedono il tipo di ragionamento, sintesi e chiarezza che ci si aspetterebbe da un fisico con dottorato o da un consulente MBA. 🌎 Questo non è solo un rilascio di dataset. È una collaborazione globale: 38 professionisti provenienti da 8 paesi hanno contribuito con oltre 7.000 rubriche scritte da esperti nei settori MBA finanziario 💵, MBA di consulenza 📊, dottorato in chimica 🧪 e dottorato in fisica 🚀. 🧗Ogni prompt e rubrica di valutazione è stata realizzata a mano, richiedendo decine di ore di lavoro dedicato e concentrato. Ora completamente supportato nel NeMo Evaluator SDK, ProfBench consente valutazioni riproducibili basate su rubriche e confronti di modelli affiancati. 🔗 ProfBench su @HuggingFace 🔗 NeMo Evaluator SDK Sono così orgoglioso del team che ha reso possibile tutto ciò. Continuiamo a spingere oltre ciò che l'AI può fare. Lavoro svolto con @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC