Právě jsem dočetl tento fascinující přehledový článek na téma "Malé jazykové modely pro agentní systémy". Tento průzkum tvrdí, že malé jazykové modely (SLM, ~1–12B params) mohou zvládnout většinu úloh agentů, zatímco velké LM jsou vyhrazeny pro případy hard edge. Tento jednoduchý posun = masivní úspory a mnohem lepší latence pro reálné agenty. Papír →
Práce agenta je zřídka kreativitou s otevřeným koncem. Jsou to volání nástrojů, strukturované výstupy, krátké úryvky kódu a deterministické pracovní postupy, věci, pro které jsou SLM vytvořeny: rychlejší inference, nižší spotřeba energie a levnější tokeny. Pro běžné úlohy volání funkcí a řízené schématy snižují výchozí architektury SLM náklady zhruba o 10×–30× ve srovnání s nastaveními pouze pro LLM. Vylepšení energie a latence se škálují podobně.
Praktický vzor je jednoduchý: nejprve spusťte SLM, ověřte jeho výstup proti striktním schématům JSON/CFG a spusťte jej pouze tehdy, když důvěra a ověření projdou. Pokud ne, eskalujte na LLM nebo spusťte smyčku opravy ověřovače. Směrování používá proxy servery, jako jsou logprobs a self-consistency, spolu se značkami úkolů a pravidly rozpočtu. Pokud nejistota SLM překročí prahovou hodnotu, pokuste se o opravy ověřovatele nebo směrujte požadavek na LLM, čímž se minimalizuje potřeba nákladných záložních volání.
SLM-by-default + LLM-by-exception poskytuje udržitelné, škálovatelné a nákladově efektivní zásobníky agentů. Schémata, validátory, routery a levné adaptéry vám poskytnou spolehlivost, rychlost a obrovskou úsporu nákladů.
2,03K