Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todos estão a dormir sobre este novo artigo da AWS.
Um modelo 100x menor que o GPT e o Claude superou-os na chamada de ferramentas.
Os pesquisadores da AWS pegaram no OPT-350M do Facebook, um modelo de 2022 com 500x menos parâmetros que o GPT, e ajustaram-no no ToolBench por uma única época.
Os resultados são impressionantes:
↳ O SLM deles: 77,55% de taxa de aprovação
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Aqui está o que está a acontecer:
Modelos grandes sofrem de "diluição de parâmetros." A maior parte da sua capacidade é otimizada para tarefas de linguagem geral, não para os padrões precisos de Entrada Pensamento-Ação-Ação que a chamada de ferramentas necessita.
Um modelo pequeno treinado especificamente para chamadas de ferramentas concentra toda a sua capacidade nessa única tarefa. Sem distrações.
A configuração de treino foi surpreendentemente simples. Hugging Face TRL, 187K exemplos, taxa de aprendizagem de 5e-5, e recorte agressivo de gradiente para estabilidade.
Mas quero deixar claro uma coisa:
Isto não significa que modelos pequenos ganham em todo o lado. Os autores reconhecem que o seu modelo pode ter dificuldades com nuances contextuais complexas ou pedidos ambíguos. É um especialista, não um generalista.
Ainda assim, se você está a construir sistemas agentes e quer reduzir os custos de inferência em ordens de magnitude, isto vale a pena prestar atenção.

Top
Classificação
Favoritos
