Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Mohou LLM objevovat, abstrahovat a znovu využívat pokročilé dovednosti nástrojů napříč úkoly?
Stávající benchmarky pro používání nástrojů testují řešení úkolů s pevně danými nástroji. Ale skutečné pracovní postupy obsahují opakující se struktury, kde efektivita vychází z opakovaně použitelných nástrojů, nikoli z izolovaných volání.
Představujeme SkillCraft: 126 úkolů napříč 6 doménami, navržených k ověření, zda agenti LLM mohou získat kompoziční dovednosti, nejen nazývat atomové nástroje.
Navrhujeme také Skill Mode, lehký protokol se čtyřmi MCP primitivy, které umožňují agentům skládat, ověřovat, cacheovat a znovu používat nástroje v době testování.
Naše klíčové poznatky při hodnocení 8 modelů SOTA:
⚡Režim dovedností umožňuje agentům objevovat a znovu používat dovednosti, což vede k vyššímu úspěchu a efektivitě než agentům bez něj. Zisky jsou větší u silnějších modelů.
🧠 Silnější modely (např. Claude) objevují obecnější dovednosti, které se přenášejí napříč úkoly a dokonce i mezi modely.
🔍 Hlubší slohová ≠ lepší — povrchní, dobře prověřené dovednosti se nejlépe zobecňují.
🔗 Článek:
💻 Kód:
🏠 Stránka:
(1/7)
Top
Hodnocení
Oblíbené
