Todos estão a dormir sobre este novo artigo da AWS. Um modelo 100x menor que o GPT e o Claude superou-os na chamada de ferramentas. Os pesquisadores da AWS pegaram no OPT-350M do Facebook, um modelo de 2022 com 500x menos parâmetros que o GPT, e ajustaram-no no ToolBench por uma única época. Os resultados são impressionantes: ↳ O SLM deles: 77,55% de taxa de aprovação ↳ ChatGPT-CoT: 26% ↳ ToolLLaMA: 30% ↳ Claude-CoT: 2,73% Aqui está o que está a acontecer: Modelos grandes sofrem de "diluição de parâmetros." A maior parte da sua capacidade é otimizada para tarefas de linguagem geral, não para os padrões precisos de Entrada Pensamento-Ação-Ação que a chamada de ferramentas necessita. Um modelo pequeno treinado especificamente para chamadas de ferramentas concentra toda a sua capacidade nessa única tarefa. Sem distrações. A configuração de treino foi surpreendentemente simples. Hugging Face TRL, 187K exemplos, taxa de aprendizagem de 5e-5, e recorte agressivo de gradiente para estabilidade. Mas quero deixar claro uma coisa: Isto não significa que modelos pequenos ganham em todo o lado. Os autores reconhecem que o seu modelo pode ter dificuldades com nuances contextuais complexas ou pedidos ambíguos. É um especialista, não um generalista. Ainda assim, se você está a construir sistemas agentes e quer reduzir os custos de inferência em ordens de magnitude, isto vale a pena prestar atenção.