DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Yksi kiehtova ja paljastava puute jopa kaikkein kehittyneimmissä multimodaalisissa LLM:issä (esim. GPT-5 ja Claude Opus 4.1) on se, mitä kutsuisin kognition modaaliseksi siiloutumiseksi. Nämä mallit näyttävät muistuttavan enemmän Frankenstein-malleja, jotka on liitetty yhteen hieman karkeasti erikseen koulutetuista palasista, jotka yhdistetään reitittämällä pyynnöt oikeaan komponenttiin sen sijaan, että ne olisi integroitu kunnolla syvälle. Minulle suuri "kerronta" tässä on se, kuinka kauheita kaikki nämä mallit ovat luomaan johdonmukaista alkuperäistä ASCII-taidetta tai jopa muokkaamaan olemassa olevaa taidetta tavalla, joka olisi lapselle helppoa, jos hänellä olisi oikea työkalu (esim. asciiflow-editori, joka on mahtava ja ilmainen selaimessa). Loin äskettäin mukavan apuohjelman kooditiedostojen tarkistamiseen ast-grepin ongelmien varalta tehokkailla tavoilla (kirjoitan siitä lisää, kun se on valmis), ja halusin tehdä jokaiselle ohjelmointikielelle mukavan bannerin, joka sisältää jokaiselle eri ascii-taidemaskottin tai logon (käärme Pythonille, gopher Golangille jne.). Tämä tehtävä korvata taide uudella taiteella säilyttäen samalla johdonmukaisuus oli täysin mahdotonta jokaiselle mallille. Jopa silloin, kun tein sen, mitä halusin, todella selväksi (sinnittelin jonkin aikaa enemmän sairaalloisesta uteliaisuudesta, kuin neurologi, joka tekee diagnostiikkaa aivovaurioista kärsivälle potilaalle), he olivat koomisen huonoja siinä. He tekivät jopa joitain todella vieraita virheitä, joita ihminen ei koskaan tekisi, kuten korvaamalla sanan "BUG" ascii-taidelohkokirjaimet toistuvilla esiintymillä kirjaimellisesta merkkijonosta "BUG", mikä osoittaa omituisen ontologisen hämmennyksen, joka on järkevää, jos otetaan huomioon, kuinka heidät on koulutettu peräkkäiseen autoregressiiviseen seuraavan merkin sovittamiseen. Kun ihminen yrittää tehdä tätä tehtävää, hän tekee eräänlaista gestalt-vaihtoa jatkuvasti edestakaisin "symboliavaruuden" ja "fyysisen (näyttö)avaruuden" välillä. Teemme symbolisesti muutoksen lisätäksemme tai siirtääksemme ascii-merkkiä, mutta sitten tarkkailemme ja havaitsemme, mitä olemme juuri tehneet visuaalisesti, nähdäksemme, onko se oikein. Se on niin saumatonta, ettemme edes huomaa sitä paljon. Nämä multimodaaliset LLM:t eivät näytä tekevän sitä, tai edes pystyvän siihen, ainakaan yhdessä päättelyvaiheessa. Ne ovat loukussa joko yhdessä tai toisessa modaliteetissa, eivätkä näytä pystyvän yhdistämään niitä. Jos he pystyisivät, tämä kuvailemani tehtävä olisi heille triviaali eikä täysin ylitsepääsemätön. Väitän, että seuraavan sukupolven multimodaalisilla LLM:illä on oltava jonkinlainen digitaalinen analogi aivojen corpus callosumille, joka yhdistää kaksi aivopuoliskoa ja auttaa koordinoimaan erilaisia kognitiivisia modaliteetteja yhtenäisessä tietoisuudessa. Toisin sanoen tiheät, harjoitettavat yhteydet, joiden avulla eri modaliteetit voivat jatkuvasti moduloida toisiaan käsittelyn aikana. Intermodaalinen, jos niin haluat.

Johtavat

Rankkaus

Suosikit