Níže je hluboký ponor do toho, proč self play funguje pro hry pro dva hráče s nulovým součtem (2p0s), jako je Go/Poker/Starcraft, ale je mnohem těžší ji používat v doménách "skutečného světa". Tl; DR: Vlastní hra konverguje k Minimaxu ve hrách 2P0s a Minimax je v těchto hrách opravdu užitečný. Každá konečná hra 2p0s má minimaximální rovnováhu, což je v podstatě neporazitelná strategie v očekávání (za předpokladu, že hráči střídají strany). Například u nůžek na kámen, papír, je minimax 1/3 na každé akci. Je minimax to, co chceme? Ne nutně. Pokud hrajete minimax ve hře Rock Paper Scissors, kdy většina strategií soupeřů je "vždy házejte kamenem", pak jste zjevně suboptimální, i když neprohráváte v očekávání. To je důležité zejména ve hře jako je poker, protože hraní minimaxu znamená, že na slabých hráčích nemusíte vydělat tolik peněz, jako kdybyste je maximálně využili. Ale záruka "neprohrajete v očekávání" je opravdu příjemná. A ve hrách jako Chess and Go je rozdíl mezi strategií minimax a strategií, která optimálně využívá populaci soupeřů, zanedbatelný. Z tohoto důvodu je minimax obvykle považován za cíl pro hru dvou hráčů s nulovým součtem. Dokonce i v pokeru je mezi špičkovými profesionály konvenční moudrost hrát minimax (optimální teorie her) a pak se odchýlit pouze tehdy, pokud si všimnete jasných slabin soupeře. Zvuková hra na vlastní pěst, dokonce i od nuly, zaručeně konverguje k minimaximální rovnováze v konečných hrách 2p0s. To je úžasné! Jednoduchým škálováním paměti a výpočtů a bez lidských dat můžeme konvergovat ke strategii, která je nepřekonatelná v očekáváních. A co hry, které nejsou 2p0s? Je smutné, že čistá hra na sebe sama bez lidských dat již nezaručuje, že konverguje k užitečné strategii. To je jasně vidět ve hře Ultimatum. Alice musí Bobovi nabídnout $0-100. Bob pak přijme nebo odmítne. Pokud Bob přijme, peníze se rozdělí podle Alicina návrhu. Pokud Petr odmítne, obdrží oba 0 Kč. Rovnovážná strategie (konkrétně podhra dokonalá rovnováha) spočívá v nabídce 1 penny a Bob ji přijme. Ale ve skutečném světě lidé nejsou tak racionální. Pokud by Alice zkusila tuto strategii se skutečnými lidmi, skončila by s velmi málo penězi. Hra na sebe sama se odpoutává od toho, co my jako lidé považujeme za užitečné. Spousta lidí navrhuje hry jako "učitel LLM navrhuje těžké matematické problémy a student LLM se je snaží vyřešit", aby dosáhli tréninku samostatné hry, ale to naráží na podobné problémy jako hra Ultimatum, kde rovnováha je odpoutána od toho, co my jako lidé považujeme za užitečné. Jaká by měla být odměna pro učitele v takové hře? Pokud jsou to 2p0, pak je učitel odměněn, pokud student nedokázal problém vyřešit, takže učitel bude klást nemožné problémy. Dobře, co když ho odměníme za to, že student má 50% úspěšnost? Pak si učitel mohl jen hodit mincí a zeptat se studenta, jestli padla panna. Nebo může učitel požádat studenta, aby dešifroval zprávu pomocí vyčerpávajícího hledání klíčů. Formování odměn k dosažení zamýšleného chování se stává velkou výzvou. To není problém ve hrách 2p0s. Věřím v vlastní hru. Poskytuje nekonečný zdroj školení a neustále spojuje agenta se stejně zkušeným kolegou. Také jsme viděli, že to funguje v některých složitých prostředích, jako je Diplomacie a Hanabi. Ale aplikovat to mimo hry 2p0s je mnohem těžší, než to bylo pro Go, Poker, Dota a Starcraft.