Tencent, 18 dolarlık bütçeyle 🤯 ince ayar ve gerçek hayatı bitirdi Geleneksel Pekiştirici Öğrenmenin (RL) tamamen yerini alan bir yöntem geliştirdiler. Buna Eğitimsiz GRPO deniyor. LLM'lerin hafızayı bir politika optimizörü olarak ele alarak 100 örnekten öğrenmelerini sağlar.