Uutta tutkimusta Microsoftilta. Phi-4-reasoning-vision-15B on 15 miljardin parametrin multimodaalinen päättelymalli, joka yhdistää visuaalisen ymmärryksen rakenteelliseen päättelykykyyn. Kuten olen sanonut, jokainen agenttitehtävä ei tarvitse rajamallia. Phi-4-reasoning-vision näyttää, mitä on mahdollista 15B-parametreilla. Raportissa kerrotaan, miten he kouluttivat kompaktin mallin, joka pystyy päättelemään sekä tekstin että kuvien yli, tavoitellen täydellistä kohtaa kyvykkyyden ja tehokkuuden välillä. Pienemmät päättelymallit, jotka käsittelevät näköä, ovat välttämättömiä käytännön agenttien käyttöönotossa. Artikkeli: Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme: