Pekiştirmeli öğrenmenin yalnızca doğrulanabilir ödüllerle çalıştığını duydum? 😛 Tebrikler!!