Sakra... tento článek z MIT tiše vysvětluje, jak se modely mohou naučit uvažovat, když jsou úplně zaseknuté 🤯 Základní myšlenka je klamavě jednoduchá: Uvažování selhává, protože učení nemá na čem se chytit. Když úspěšnost modelu klesne téměř na nulu, posilované učení přestává fungovat. Žádný signál odměny. Žádný gradient. Žádné zlepšení. Model není "špatný v uvažování" — je uvězněn za hranicí naučitelnosti. Tento článek přeformuluje problém. Místo toho, abychom se ptali "Jak donutit model, aby řešil těžší problémy?" Ptají se: "Jak model vytváří problémy, ze kterých se může poučit?" A právě zde přichází na řadu SOAR. SOAR rozděluje jeden předtrénovaný model do dvou rolí: • Student, který se snaží řešit extrémně těžké cílené úlohy • Učitel, který vytváří nové tréninkové problémy pro studenta Ale to omezení je kruté. Učitel nikdy není odměněn za chytré otázky, rozmanitost nebo realismus. Odměna je pouze tehdy, pokud se výkon studenta zlepší na pevně daných hodnotících problémech. Žádné zlepšení? Žádná odměna. To úplně mění dynamiku. ...