Vi introduserer ':exacto', presisjonsverktøykallende endepunkter OpenRouter tilbyr nå en kuratert undergruppe av leverandører på topp åpen kildekode-modeller med målbart høyere verktøyanropsnøyaktighet som gir mer pålitelig verktøybruk.
Les alle detaljene i blogginnlegget vårt: eller fortsett å lese tråden for sammendraget.
Hvorfor dette er viktig: Selv når leverandører er vert for *samme modellvekt*, kan den virkelige inferenskvaliteten variere. Å kjøre milliarder av forespørsler per måned gir OpenRouter et unikt utsiktspunkt for å oppdage disse avvikene og vise de mest nøyaktige leverandørene automatisk.
Slik måler vi kvaliteten på verktøybruk: • JSON-gyldighet • Verktøynavn og skjematreff • Tilbøyelighet til verktøybruk (tendens til å tilkalle verktøy) • Brukeren ignorerer/svartelister preferanser • Eksterne benchmarks (τ²-Bench, LiveMCPBench via @GroqInc OpenBench)
Disse dataene avslører at verktøyanropsnøyaktigheten varierer langt mer mellom leverandører enn konvensjonelle benchmarks antyder, selv for den samme åpne vektmodellen. Så vi bygde endepunkter som ruter *bare* til de mest pålitelige.
Lanseringsmodeller inkluderer: 'moonshotai/kimi-k2-0905:exacto' 'deepseek/deepseek-v3.1-terminus:exacto' 'z-ai/glm-4.6:exacto' 'openai/gpt-oss-120b:exacto' 'qwen/qwen3-koder:exacto' Se dem alle her.
Exacto-modeller + leverandørkombinasjoner: Kimi K2: @GroqInc og @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra og @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3-koder: @basetenco, @cerebras og @GoogleAI DeepSeek-endestasjon: @AtlasCloud_AI, DeepInfra og Novita
Bruk dem som alle andre modeller, bare legg til ':exacto': '''Bash krølle\ -H "Autorisasjon: Bærer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Hva er hovedstaden i Frankrike?"}]}' ```
Benchmarks og interne evalueringer viser en vesentlig økning i suksessrater for verktøykall på tvers av alle ':exacto'-modeller, færre ugyldige JSON-er, færre skjemauoverensstemmelser og høyere pålitelighet i den virkelige verden. Shoutout til @GroqInc's OpenBench for eval-selen og den nylig lagt til LiveMCPBench.
':exacto'-varianten er utelukkende fokusert på verktøykallingspresisjon, ikke en generell rangering av leverandørkvalitet. Vi vil fortsette å utvide disse endepunktene og dele flere aggregerte data senere i år.
133,58K