Jednym z aspektów naszego modelu Gemini 3 Pro, na który warto zwrócić uwagę, jest jego wydajność w zakresie możliwości multimodalnych. Pracowaliśmy nad tym, aby działał naprawdę dobrze w różnych zastosowaniach multimodalnych, takich jak rozumienie dokumentów, filmów, cech przestrzennych, danych biomedycznych i ekranów komputerowych, oraz aby potrafił wnioskować na podstawie informacji wizualnych. Aby to przetestować, podałem oryginalny obrazek z poniższego wpisu na blogu i zapytałem: Proszę stworzyć wersję tej figury z kolumną Gemini Pro oznaczoną względnym poprawieniem w porównaniu do najlepszego wyniku z pozostałych trzech kolumn na czerwono. (To samo w sobie jest dość trudnym zadaniem wnioskowania wizualnego! Udało mu się to całkiem dobrze, gdy przeprowadziłem kilka kontrolnych sprawdzeń, a te względne poprawy dokładności są dość duże w niektórych benchmarkach!) Przeczytaj więcej poniżej lub w wpisie na blogu pod: