Inception Labs heeft Mercury 2 gelanceerd, hun volgende generatie productieklare Diffusion LLM. Mercury 2 behaalt >1.000 output tokens/s met aanzienlijke verbeteringen in intelligentie @_inception_ai's Diffusion LLMs (“dLLMs”) gebruiken een andere architectuur in vergelijking met autoregressieve LLMs. Het generatieproces van de Diffusion LLM begint met ruis en verfijnt iteratief de output met behulp van een transformer model dat meerdere tokens parallel kan aanpassen. Dit maakt parallelisatie van de output token generatie mogelijk, waardoor snellere outputsnelheden worden bereikt omdat veel output tokens tegelijkertijd worden gegenereerd. Belangrijke punten: ➤ Onder vergelijkbare modellen in grootte/prijsklasse presteert Mercury 2 competitief in intelligentie versus outputsnelheid. Hoewel het niet de hoogste intelligentie heeft, is de outputsnelheid meer dan 3X die van het snelste model in deze klasse (benchmarks gebaseerd op eerste partij eindpunten of de mediaan van aanbieders die het model bedienen waar een eerste partij eindpunt niet beschikbaar is) ➤ Belangrijke sterke punten zijn agentic coding & terminal gebruik en instructie opvolging. Mercury 2 presteert op een vergelijkbaar niveau als Claude 4.5 Haiku op Terminal-Bench Hard en scoort 70% op IFBench (Instructie Volgen), waarmee het gpt-oss-120B, GPT-5.1 Codex mini, en GPT-5 nano overtreft. Achtergrond van Inception Labs: Dit is de tweede release van Inception Labs. De oprichters waren eerder professoren aan Stanford, UCLA en Cornell en hebben bijgedragen aan AI-onderzoek en -technologieën, waaronder Flash Attention, Decision Transformers en Direct Preference Optimization (DPO). Zie hieronder voor verdere analyse.
Uitvoersnelheidsvergelijking met andere modellen (benchmarks gebaseerd op eerste partij eindpunten of de mediaan van aanbieders die het model bedienen waar een eerste partij eindpunt niet beschikbaar is)
Mercury 2 presteert boven verwachting vergeleken met kleine vergelijkbare modellen op verschillende agentische evaluaties, waaronder GDPval-AA, Terminal-Bench Hard en 𝜏²-Bench Telecom, terwijl het zijn hoge uitvoersnelheden biedt.
Zie Kunstmatige Analyse voor verdere details en benchmarks van Mercury 2:
11,34K