🚀 Jsme nadšeni, že se můžeme podělit o naši práci ve společnosti Bytedance Seed! Knapsack RL: Odemykání průzkumu LLM prostřednictvím přidělování 🎒 rozpočtu Průzkum v LLM školení je zásadní, ale drahý. Jednotné přidělování zavádění je nehospodárné: ✅ Jednoduché úlohy → vždy řešeny → 0 gradientem ❌ Obtížné úlohy → vždy selžou → gradientu 0 💡 Naše myšlenka: přistupovat k průzkumu jako k problému batohu → přidělit nasazení tam, kde na nich záleží nejvíce. ✨ Výsledky: 🔼 +20–40 % více nenulových přechodů 🧮 Až 93 nasazení pro náročné úlohy (bez dalších výpočetních prostředků) 📈 +2–4 průměrné body, +9 maximálních zisků v matematických benchmarkech 💰 ~2× levnější než jednotné přidělování 📄 Papír: