Přistupuje se k moderním doporučovacím systémům jako k problému zpětnovazebního učení, se součtem diskontovaných budoucích odměn, nebo jako k jednokrokovým transakcím? Mnoho produktů provádí významnou offline analýzu dat o akcích přijatých k informování o změnách, ale zdá se, že není doceněno, o kolik účinnější je provádět změny zásad na živé, masivně paralelní sadě nezávislých prostředí/uživatelů. Offline RL je zásadně těžší než online RL – musíte se mít na pozoru, abyste se nedostali do optimistické fantazie nevyzkoušené realitou.
83,67K