Det är så här jag alltid har antagit att LLM:er skulle fungera eftersom det är så jag (och förmodligen de flesta andra) tänker så här jag (och förmodligen de flesta andra) tänker Jag antar att grundenheten för tanke är denna gestalt tankevektor, inte "ord", och vi har alla utvecklat ett väldigt snabbt sätt att översätta dessa till ord eftersom ord är mer kommunikativa än tankedelar Detta har alltid varit mitt problem med "vissa människor har ingen inre monolog!"-diskussion Det är helt enkelt meningslöst att ord ska vara den basenhet folk tänker i. Det är som tusen gånger snabbare att tänka i termer av bilder eller dessa tankedelar eller vad som helst Jag antar att det bara verkar som att folk tänker i ord, för när de beskriver vad de tänker för folk måste de översätta tankebitarna till ord – eftersom det är så vi kommunicerar – och denna process omvandlar deras faktiska tankar till formen av en monolog Men det är bara logiskt att tänka i ord när du behöver leverera någon form av kommunikation. Annars är det inte särskilt effektivt Och människohjärnor är otroligt effektiva
Simplifying AI
Simplifying AI23 mars 00:54
🚨 BRYTNING: Tencent har dödat "next-token"-paradigmet. Tencent och Tsinghua har släppt CALM (Continuous Autoregressive Language Models), och det stör helt nästa token-paradigm. LLM:er slösar för närvarande enorma mängder beräkning på att förutsäga diskreta, enskilda tokens genom ett enormt vokabulär-softmax-lager. Den är långsam och skalar dåligt. CALM kringgår ordförrådet helt. Den använder en högupplöst autoencoder för att komprimera textbitar till en enda kontinuerlig vektor med 99,9 % rekonstruktionsnoggrannhet. Modellen förutsäger nu "nästa vektor" i ett kontinuerligt rum. Siffrorna är faktiskt galna: - Varje generativt steg bär nu 4× den semantiska bandbredden. - Träningsberäkningen minskas med 44%. - Softmax-flaskhalsen är helt borttagen. Vi ser bokstavligen språkmodeller utvecklas från att skriva diskreta symboler till att strömma kontinuerliga tankar. Detta förändrar hela AI:s utveckling.
Jag kommenterar bara mekanismen som beskrivs här förresten, inte själva teknologin från Tencent eller vad det nu är Jag antar att det kommer att gå ganska långsamt och ineffektivt att gå från vektorer till tokens under lång tid och jag tvivlar på att detta REVOLUTIONERAR AI eller något liknande på kort sikt
292