RL je výkonný mechanismus pro trénování firemních modelů na jejich jedinečné práci a datech. To je to, co děláme v Applied Compute. Klíčovou výzvou je, jak udělat RL efektivní, protože potřebujeme, aby běhy byly rychlé (doručené během dnů), levné (škálovatelná jednotková ekonomika) a předvídatelné (nejen rychlé, ale spolehlivě rychlé). Zde je několik poznatků: • Synchronní RL je plýtvavá časem a výpočetní kapacitou. • Asynchronní RL je efektivnější, ale zavádí zatuchlost, což způsobuje nestability učení. • Modelování a simulace mohou analyticky pomoci zjistit, jaká konfigurace vede k optimální efektivitě. To nám umožňuje rychle prototypovat tréninkové konfigurace, aniž bychom museli při zkušebních pokusech vyčerpávat drahé výpočetní cykly. Dva naši spoluzakladatelé, @rhythmrg a @lindensli, nedávno na @aiDotEngineer diskutovali o některých těchto výzkumech se zaměřením na následující podproblém: jaký je nejvyšší propustný způsob, jak dělat RL při maximální zastaralosti a výpočetním rozpočtu?