🚨 AutoBench 1.0 – Запуск 4 в эфире 📷 - 33 модели на переднем крае, оцененные (включая GPT-5.1, Gemini 3 Pro, Grok 4.1, Kimi K2 Thinking и др.) - 21 модель для ранжирования - Более 300 свежих вопросов сгенерировано - Более 220,000 индивидуальных оценок Это самая устойчивая к манипуляциям оценка, которую мы когда-либо проводили. И да… победитель – это НЕ тот, кого ожидало большинство людей. 1/13