Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Toată lumea doarme pe această nouă lucrare de la AWS.
Un model de 100 de ori mai mic decât GPT, iar Claude i-a zdrobit la apelarea uneltelor.
Cercetătorii AWS au luat OPT-350M de la Facebook, un model din 2022 cu 500 de ori mai puțini parametri decât GPT, și l-au ajustat fin pe ToolBench pentru o singură epocă.
Rezultatele sunt surprinzătoare:
↳ SLM-ul lor: 77,55% rată de promovare
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Iată ce se întâmplă:
Modelele mari suferă de "diluția parametrilor". Cea mai mare parte a capacității lor este optimizată pentru sarcini de limbaj general, nu pentru modelele precise de Gândire-Acțiune-Acțiune de Input de care are nevoie apelarea uneltelor.
Un model mic, antrenat special pentru apelarea uneltelor, își concentrează toată capacitatea pe acel singur lucru. Fără distrageri.
Configurația de antrenament era surprinzător de simplă. Higging Face TRL, exemple 187K, rată de învățare 5e-5 și gradient clipping agresiv pentru stabilitate.
Dar vreau să fiu clar într-o privință:
Asta nu înseamnă că modelele mici câștigă peste tot. Autorii recunosc că modelul lor poate avea dificultăți cu nuanțe contextuale complexe sau cereri ambigue. Este un specialist, nu un generalist.
Totuși, dacă construiești sisteme agențice și vrei să reduci costurile de inferență cu ordine de mărime, merită să fii atent la acest aspect.
Am împărtășit linkul către ziar în următorul tweet.

Limită superioară
Clasament
Favorite
