Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vytvořili jsme ProfBench, abychom zvýšili laťku pro LLM - a to doslova.
Ve společnosti @NVIDIA jsme spolupracovali s odborníky na danou oblast na vytvoření měřítka, které dalece přesahuje rámec drobností a krátkých odpovědí.
ProfBench testuje LLM na složitých, vícestupňových úkolech, které vyžadují druh uvažování, syntézy a jasnosti, jaký byste očekávali od doktorandského fyzika nebo konzultanta MBA.
🌎 Nejedná se pouze o kapku datové sady. Jedná se o globální spolupráci: 38 profesionálů z 8 zemí přispělo více než 7 000 odborně napsanými rubrikami napříč financemi MBA 💵, poradenstvím MBA, doktorátem 📊 🧪z chemie a doktorátem 🚀 z fyziky.
🧗Každá nápověda a klasifikační rubrika byla vytvořena ručně, což vyžadovalo desítky hodin obětavé a soustředěné práce.
ProfBench, který je nyní plně podporován v sadě NeMo Evaluator SDK, umožňuje reprodukovatelná hodnocení založená na rubrikách a porovnávání modelů vedle sebe.
🔗 ProfBench na @HuggingFace
🔗 SDK hodnotitelů NeMo
Jsem tak hrdá na tým, který to dokázal. Pojďme dál posouvat to, co umělá inteligence dokáže.
Práce s @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Top
Hodnocení
Oblíbené

