Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abbiamo creato ProfBench per alzare l'asticella per i LLM - letteralmente.
Presso @NVIDIA, abbiamo collaborato con esperti del settore per creare un benchmark che va ben oltre le curiosità e le risposte brevi.
ProfBench testa i LLM su compiti complessi e a più fasi che richiedono il tipo di ragionamento, sintesi e chiarezza che ci si aspetterebbe da un fisico con dottorato o da un consulente MBA.
🌎 Questo non è solo un rilascio di dataset. È una collaborazione globale: 38 professionisti provenienti da 8 paesi hanno contribuito con oltre 7.000 rubriche scritte da esperti nei settori MBA finanziario 💵, MBA di consulenza 📊, dottorato in chimica 🧪 e dottorato in fisica 🚀.
🧗Ogni prompt e rubrica di valutazione è stata realizzata a mano, richiedendo decine di ore di lavoro dedicato e concentrato.
Ora completamente supportato nel NeMo Evaluator SDK, ProfBench consente valutazioni riproducibili basate su rubriche e confronti di modelli affiancati.
🔗 ProfBench su @HuggingFace
🔗 NeMo Evaluator SDK
Sono così orgoglioso del team che ha reso possibile tutto ciò. Continuiamo a spingere oltre ciò che l'AI può fare.
Lavoro svolto con @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Principali
Ranking
Preferiti

