🚨 AutoBench 1.0 – Run 4 jest NA ŻYWO 📷 - 33 modele frontierowe sklasyfikowane (w tym GPT-5.1, Gemini 3 Pro, Grok 4.1, Kimi K2 Thinking itd.) - 21 modele rankingowe - Ponad 300 świeżych pytań wygenerowanych - Ponad 220 000 indywidualnych rankingów To jest najbardziej odporny na manipulacje test, jaki kiedykolwiek przeprowadziliśmy. I tak… zwycięzca to NIE ten, kogo większość ludzi się spodziewała. 1/13