Vytvořili jsme ProfBench, abychom zvýšili laťku pro LLM - a to doslova. Ve společnosti @NVIDIA jsme spolupracovali s odborníky na danou oblast na vytvoření měřítka, které dalece přesahuje rámec drobností a krátkých odpovědí. ProfBench testuje LLM na složitých, vícestupňových úkolech, které vyžadují druh uvažování, syntézy a jasnosti, jaký byste očekávali od doktorandského fyzika nebo konzultanta MBA. 🌎 Nejedná se pouze o kapku datové sady. Jedná se o globální spolupráci: 38 profesionálů z 8 zemí přispělo více než 7 000 odborně napsanými rubrikami napříč financemi MBA 💵, poradenstvím MBA, doktorátem 📊 🧪z chemie a doktorátem 🚀 z fyziky. 🧗Každá nápověda a klasifikační rubrika byla vytvořena ručně, což vyžadovalo desítky hodin obětavé a soustředěné práce. ProfBench, který je nyní plně podporován v sadě NeMo Evaluator SDK, umožňuje reprodukovatelná hodnocení založená na rubrikách a porovnávání modelů vedle sebe. 🔗 ProfBench na @HuggingFace 🔗 SDK hodnotitelů NeMo Jsem tak hrdá na tým, který to dokázal. Pojďme dál posouvat to, co umělá inteligence dokáže. Práce s @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC