🚨 AutoBench 1.0 – Run 4 er LIVE 📷 - 33 Frontier-modeller rangert (inkludert GPT-5.1, Gemini 3 Pro, Grok 4.1, Kimi K2 Thinking, osv.) - 21 Rangeringsmodeller - 300+ nye spørsmål generert - 220 000+ individuelle rangeringer Dette er den mest manipulasjonsresistente evalueringen vi noen gang har gjennomført. Og ja... vinneren er IKKE den de fleste forventet. 1/13