Akhirnya menemukan kasus penggunaan yang baik untuk subagen. Membuat model kebijakan lebih cerdas dengan membangun Lingkungan RL secara otomatis dari data tugas dunia nyata. Astaga, itu benar-benar berhasil