Așa am presupus mereu că vor funcționa LLM-urile, pentru că așa gândesc eu (și probabil majoritatea celorlalți) Presupun că unitatea de bază a gândirii este acest vector gestalt de gândire, nu "cuvinte", și că toți am dezvoltat o metodă foarte rapidă de a le traduce în cuvinte pentru că cuvintele sunt mai comunicabile decât fragmentele de gândire Aceasta a fost mereu problema mea cu discursul "unii oameni nu au un monolog interior!" Pur și simplu nu are sens ca cuvintele să fie unitatea de bază în care oamenii gândesc. Este de vreo mie de ori mai rapid să gândești în termeni de imagini sau aceste articole de gândire sau orice altceva Presupun că pare că oamenii gândesc în cuvinte pentru că atunci când descriu ce gândesc altora, trebuie să traducă fragmentele de gândire în cuvinte – așa comunicăm – iar acest proces transformă gândurile lor reale în forma unui monolog Dar are sens să gândești în cuvinte doar când ai nevoie să produci o formă de comunicare. În rest, nu este foarte eficient Iar creierele umane sunt incredibil de eficiente
Simplifying AI
Simplifying AI23 mar., 00:54
🚨 ULTIMĂ ORĂ: Tencent a ucis paradigma "next-token". Tencent și Tsinghua au lansat CALM (Continuous Autoregresive Language Models), care perturbă complet paradigma next-token. LLM-urile irosesc în prezent cantități masive de calcul prezicând tokenuri discrete, individuale, printr-un strat softmax de vocabular uriaș. Este lent și scalează prost. CALM ocolește complet vocabularul. Folosește un autoencoder de înaltă fidelitate pentru a comprima bucăți de text într-un singur vector continuu, cu o acuratețe de reconstrucție de 99,9%. Modelul prezice acum "următorul vector" într-un spațiu continuu. Cifrele sunt de fapt incredibile: - Fiecare pas generativ poartă acum 4× lățimea de bandă semantică. - Calculul de antrenament este redus cu 44%. - Blocajul softmax este complet eliminat. Urmărim literalmente modelele de limbaj evoluând de la tastarea simbolurilor discrete la transmiterea gândurilor continue. Acest lucru schimbă întreaga traiectorie a inteligenței artificiale.
Doar comentez despre mecanismul descris aici, nu despre tehnologia propriu-zisă de la Tencent sau ceva de genul acesta Presupun că trecerea de la vectori la tokenuri va fi destul de lentă/ineficientă pentru mult timp și mă îndoiesc că asta REVOLUȚIONEAZĂ AI sau ceva de genul acesta pe termen scurt
298