Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jednym z aspektów naszego modelu Gemini 3 Pro, na który warto zwrócić uwagę, jest jego wydajność w zakresie możliwości multimodalnych. Pracowaliśmy nad tym, aby działał naprawdę dobrze w różnych zastosowaniach multimodalnych, takich jak rozumienie dokumentów, filmów, cech przestrzennych, danych biomedycznych i ekranów komputerowych, oraz aby potrafił wnioskować na podstawie informacji wizualnych.
Aby to przetestować, podałem oryginalny obrazek z poniższego wpisu na blogu i zapytałem:
Proszę stworzyć wersję tej figury z kolumną Gemini Pro oznaczoną względnym poprawieniem w porównaniu do najlepszego wyniku z pozostałych trzech kolumn na czerwono.
(To samo w sobie jest dość trudnym zadaniem wnioskowania wizualnego! Udało mu się to całkiem dobrze, gdy przeprowadziłem kilka kontrolnych sprawdzeń, a te względne poprawy dokładności są dość duże w niektórych benchmarkach!)
Przeczytaj więcej poniżej lub w wpisie na blogu pod:

Najlepsze
Ranking
Ulubione
