🚨 AutoBench 1.0 – Run 4 is LIVE 📷 - 33 frontier modellen gerangschikt (inclusief GPT-5.1, Gemini 3 Pro, Grok 4.1, Kimi K2 Thinking, enz.) - 21 rangschikkingsmodellen - 300+ verse vragen gegenereerd - 220.000+ individuele rangschikkingen Dit is de meest manipulatiebestendige evaluatie die we ooit hebben uitgevoerd. En ja… de winnaar is NOT wie de meeste mensen verwachtten. 1/13