Et aspekt ved vår Gemini 3 Pro-modell å se på, er hvordan den presterer i multimodale funksjoner. Vi har jobbet med å få det til å fungere veldig godt på tvers av ulike multimodale bruksområder, som forståelse av dokumenter, videoer, romlige egenskaper, biomedisinske data og datateknologi, samt evnen til å resonnere om visuell informasjon. For å teste det ut, ga jeg originalbildet fra blogginnlegget nedenfor, og spurte det: Vennligst lag en versjon av denne figuren med Gemini Pro-kolonnen annotert med relativ forbedring sammenlignet med det beste resultatet fra de tre andre kolonnene i rødt (Dette i seg selv er en ganske vanskelig visuell resonnementsoppgave! Den gjorde det ganske bra med å gjøre dette nøyaktig ved noen stikkprøver, og de relative nøyaktighetsforbedringene er ganske store på tvers av noen av benchmarkene!) Les mer nedenfor eller i blogginnlegget på: