Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wszyscy śpią na ten nowy artykuł od AWS.
Model 100 razy mniejszy niż GPT i Claude zdominował je w wywoływaniu narzędzi.
Badacze AWS wzięli model OPT-350M od Facebooka, model z 2022 roku z 500 razy mniejszą liczbą parametrów niż GPT, i dostosowali go na ToolBench przez jeden epokę.
Wyniki są szalone:
↳ Ich SLM: 77,55% wskaźnik zdawalności
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Oto co się dzieje:
Duże modele cierpią na "rozcieńczenie parametrów". Większość ich pojemności jest zoptymalizowana do ogólnych zadań językowych, a nie do precyzyjnych wzorców Wejścia-Myśli-Działania, które są potrzebne do wywoływania narzędzi.
Mały model, który został specjalnie przeszkolony do wywoływania narzędzi, koncentruje całą swoją pojemność na tej jednej rzeczy. Żadnych rozproszeń.
Ustawienie treningowe było zaskakująco proste. Hugging Face TRL, 187K przykładów, współczynnik uczenia 5e-5 i agresywne przycinanie gradientów dla stabilności.
Ale chcę być jasny w jednej kwestii:
To nie oznacza, że małe modele wygrywają wszędzie. Autorzy przyznają, że ich model może mieć trudności z złożonymi niuansami kontekstowymi lub niejednoznacznymi prośbami. To specjalista, a nie generalista.
Mimo to, jeśli budujesz systemy agentowe i chcesz obniżyć koszty wnioskowania o rzędy wielkości, warto zwrócić na to uwagę.
Podzieliłem się linkiem do artykułu w następnym tweecie.

Najlepsze
Ranking
Ulubione
