Nový příspěvek na blogu! Tento je čistě teoretický pokus o identifikaci hlavního důvodu, proč LLM trpí kolapsem módů v RL a selhávají při generování nových nebo skutečně rozmanitých výstupů. Ve skutečnosti je to mnohem složitější problém, než si myslíte! Naivní podpora průzkumu vyššími teplotami, regulací výstupní entropie, pass@k metrikami atd. nestačí k tomu, aby se zabránilo úzkému místu průzkumu během RL. Článek navrhuje novou teorii, proč tomu tak je a jak to řešit, a to pomocí decentralizovaného zpětnovazebního učení k vytvoření "ekosystému" modelů spíše než pouze jedné centralizované instance.