Semua orang tidur di makalah baru dari AWS ini. Model 100x lebih kecil dari GPT dan Claude menghancurkannya pada panggilan alat. Peneliti AWS mengambil OPT-350M Facebook, model dari tahun 2022 dengan parameter 500x lebih sedikit daripada GPT, dan menyempurnakannya di ToolBench untuk satu zaman. Hasilnya liar: ↳ SLM mereka: tingkat kelulusan 77.55% ↳ ChatGPT-CoT: 26% ↳ AlatLLaMA: 30% ↳ Claude-CoT: 2.73% Inilah yang terjadi: Model besar menderita "pengenceran parameter". Sebagian besar kapasitasnya dioptimalkan untuk tugas bahasa umum, bukan pola Input Pikiran-Tindakan-Tindakan yang tepat yang dibutuhkan alat pemanggilan. Model kecil yang dilatih secara khusus pada pemanggilan alat memusatkan semua kapasitasnya pada satu hal itu. Tidak ada gangguan. Pengaturan pelatihannya sangat sederhana. Hugging Face TRL, contoh 187K, tingkat pembelajaran 5e-5, dan kliping gradien agresif untuk stabilitas. Tapi saya ingin memperjelas sesuatu: Ini tidak berarti model kecil menang di mana-mana. Para penulis mengakui model mereka mungkin berjuang dengan nuansa kontekstual yang kompleks atau permintaan yang ambigu. Ini spesialis, bukan generalis. Namun, jika Anda membangun sistem agen dan ingin memotong biaya inferensi dengan urutan besarnya, ini patut diperhatikan. Saya telah membagikan tautan ke makalah di tweet berikutnya.