Jeder schläft auf diesem neuen Papier von AWS. Ein Modell, das 100x kleiner ist als GPT und Claude, hat sie beim Tool-Calling übertroffen. Die AWS-Forscher haben Facebooks OPT-350M, ein Modell aus dem Jahr 2022 mit 500x weniger Parametern als GPT, genommen und es für eine einzige Epoche auf ToolBench feinabgestimmt. Die Ergebnisse sind verrückt: ↳ Ihre SLM: 77,55% Bestehensquote ↳ ChatGPT-CoT: 26% ↳ ToolLLaMA: 30% ↳ Claude-CoT: 2,73% Hier ist, was passiert: Große Modelle leiden unter "Parameterdilution." Der Großteil ihrer Kapazität ist für allgemeine Sprachaufgaben optimiert, nicht für die präzisen Thought-Action-Action Input-Muster, die beim Tool-Calling benötigt werden. Ein kleines Modell, das speziell für Tool-Calling trainiert wurde, konzentriert seine gesamte Kapazität auf diese eine Sache. Keine Ablenkungen. Das Training-Setup war überraschend einfach. Hugging Face TRL, 187K Beispiele, Lernrate von 5e-5 und aggressives Gradient-Clipping für Stabilität. Aber ich möchte klarstellen: Das bedeutet nicht, dass kleine Modelle überall gewinnen. Die Autoren erkennen an, dass ihr Modell möglicherweise Schwierigkeiten mit komplexen kontextuellen Nuancen oder mehrdeutigen Anfragen hat. Es ist ein Spezialist, kein Generalist. Dennoch, wenn Sie agentische Systeme aufbauen und die Inferenzkosten um ein Vielfaches senken möchten, ist das es wert, darauf zu achten. Ich habe den Link zum Papier im nächsten Tweet geteilt.