Alle sover på denne nye artikkelen fra AWS. En modell 100 ganger mindre enn GPT og Claude knuste dem på verktøykall. AWS-forskere tok Facebooks OPT-350M, en modell fra 2022 med 500 ganger færre parametere enn GPT, og finjusterte den på ToolBench for én epoke. Resultatene er ville: ↳ Deres SLM: 77,55 % beståttprosent ↳ ChatGPT-CoT: 26 % ↳ ToolLLaMA: 30 % ↳ Claude-CoT: 2,73 % Slik skjer det: Store modeller lider av «parameterfortynning». Mesteparten av kapasiteten deres er optimalisert for generelle språkoppgaver, ikke de presise Thought-Action-Input-mønstrene som verktøykall trenger. En liten modell som er spesifikt trent på verktøykall konsentrerer all sin kapasitet på akkurat den tingen. Ingen distraksjoner. Treningsoppsettet var overraskende enkelt. Hugging Face TRL, 187 000 eksempler, læringsrate på 5e-5, og aggressiv gradientklipping for stabilitet. Men jeg vil være tydelig på én ting: Dette betyr ikke at små modeller vinner overalt. Forfatterne erkjenner at modellen deres kan slite med komplekse kontekstuelle nyanser eller tvetydige forespørsler. Det er en spesialist, ikke en generalist. Likevel, hvis du bygger agentiske systemer og ønsker å redusere slutningskostnadene med størrelsesordener, er dette verdt å være oppmerksom på. Jeg har delt lenken til artikkelen i neste tweet.