Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi bygde ProfBench for å heve standarden for LLM-er - bokstavelig talt.
Hos @NVIDIA jobbet vi med domeneeksperter for å lage en benchmark som går langt utover trivia og korte svar.
ProfBench tester LLM-er på komplekse flertrinnsoppgaver som krever den typen resonnement, syntese og klarhet du forventer av en doktorgradsfysiker eller MBA-konsulent.
🌎 Dette er ikke bare et datasettslipp. Det er et globalt samarbeid: 38 fagfolk i 8 land bidro med over 7,000 ekspertskrevne rubrikker på tvers av finans MBA 💵, rådgivende MBA 📊, kjemi PhD 🧪og fysikk PhD 🚀.
🧗Hver rask og graderende rubrikk var håndlaget, og krevde titalls timer med dedikert og fokusert arbeid.
ProfBench støttes nå fullt ut i NeMo Evaluator SDK, og muliggjør reproduserbare, rubrikkbaserte evalueringer og side-ved-side-modellsammenligninger.
🔗 ProfBench om @HuggingFace
🔗 NeMo Evaluator SDK
Jeg er så stolt av teamet som fikk dette til. La oss fortsette å presse på hva AI kan gjøre.
Arbeid utført med @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Topp
Rangering
Favoritter

