Model besar adalah agen yang hebat tetapi seringkali terlalu besar, tertutup, atau halus untuk disempurnakan Ide: melatih model kecil untuk membuat konteks untuk model besar yang dibekukan, menilai output model besar, menggunakannya sebagai hadiah untuk model kecil GRPO untuk penyetelan konteks. Lebih lanjut di bawah ini
11,62K