🆕 Školení agentických uvažovatelů dnešním bonusem je triumfální návrat @willccbb na trať AIE stage RL - nyní v rámci @PrimeIntellect! Spousta agentů builderů v podstatě dělá "RL ručně". Stručně vysvětluje současné algoritmy RL na jednom snímku (!), ale pak tvrdí, že RL - zejména pro otevřené modely - uvízl v matematice a otázkách a odpovědích kódu novou žhavostí je víceotáčkové agentické RL a nová knihovna verifiers je dokonalou sadou nástrojů pro vytvoření agenta a jeho přeměnu na smyčku RL. Více lidí by mělo zkoumat vytváření lepších modelů agentů a Will + PI to umožňuje všem!
feedsImage
47,57K