Одним из аспектов нашей модели Gemini 3 Pro, на который стоит обратить внимание, является то, как она справляется с мультимодальными возможностями. Мы работали над тем, чтобы она действительно хорошо работала в различных мультимодальных сценариях, таких как понимание документов, видео, пространственных характеристик, биомедицинских данных и компьютерных экранов, а также возможность рассуждать о визуальной информации. Чтобы протестировать это, я предоставил оригинальное изображение из блога ниже и спросил: Пожалуйста, создайте версию этой фигуры с колонкой Gemini Pro, аннотированной относительным улучшением по сравнению с лучшим результатом из других трех колонок, выделенным красным. (Это само по себе довольно сложная задача визуального рассуждения! Она довольно хорошо справилась с этим, согласно некоторым выборочным проверкам, и эти относительные улучшения точности довольно велики по сравнению с некоторыми из эталонов!) Читать далее ниже или в блоге по адресу: