Nowe badania od Microsoftu. Phi-4-reasoning-vision-15B to model multimodalnego rozumowania z 15 miliardami parametrów, który łączy zrozumienie wizualne z możliwościami strukturalnego rozumowania. Jak już mówiłem, nie każde zadanie agenta wymaga modelu na granicy możliwości. Phi-4-reasoning-vision pokazuje, co jest możliwe przy 15 miliardach parametrów. Raport szczegółowo opisuje, jak wytrenowano kompaktowy model, który potrafi rozumować zarówno na podstawie tekstu, jak i obrazów, celując w idealny punkt między możliwościami a efektywnością. Mniejsze modele rozumowania, które obsługują wizję, są niezbędne dla praktycznych wdrożeń agentów. Artykuł: Naucz się budować skuteczne agenty AI w naszej akademii: