Вчера я играл с Gemini 3 через ранний доступ. Несколько мыслей - Во-первых, я обычно призываю к осторожности с публичными бенчмарками, потому что, на мой взгляд, их можно довольно легко обмануть. Все сводится к дисциплине и самоконтролю команды (которая, тем временем, сильно мотивирована делать иначе), чтобы не переобучать тестовые наборы с помощью сложной гимнастики над данными, смежными с тестовым набором, в пространстве встраивания документов. Реалистично, поскольку все остальные это делают, давление делать так велико. Поговорите с моделью. Поговорите с другими моделями (катайтесь на цикле LLM - используйте другую LLM каждый день). Вчера у меня сложилось положительное первое впечатление по всем параметрам: личность, письмо, кодирование настроения, юмор и т.д., очень солидный потенциал для ежедневного использования, явно LLM первого уровня, поздравляю команду! В течение следующих нескольких дней/недель мне особенно интересно и я буду следить за ансамблем по частным оценкам, которые многие люди/организации теперь, похоже, строят для себя и время от времени сообщают об этом здесь.