Google pur și simplu a oferit modelelor lingvistice o memorie reală pe termen lung. O arhitectură nouă învață în timpul inferenței și păstrează contextul pe milioane de tokenuri. Are o acuratețe de ~70% la 10 milioane de token-uri. Această arhitectură învață în timp ce rulează Titans adaugă o memorie neurală pe termen lung care se actualizează în timpul generării. Nu greutățile. Nu reantrenament. Învățare live. • O rețea neuronală mică stochează context pe distanțe lungi • Se actualizează doar când apare ceva neașteptat • Jetoanele de rutină sunt ignorate pentru a rămâne rapide Acest lucru permite modelului să-și amintească fapte din texte mult mai vechi fără să scaneze totul din nou. Păstrează viteza în timp ce scalează contextul Atenția rămâne locală. Memoria se ocupă de trecut. • Cost de inferență liniară • Fără expansiuni de atenție cuadratică • Acuratețe stabilă peste două milioane de tokenuri Îți permite să creezi noi tipuri de aplicații Poți procesa cărți complete, jurnale sau genomuri dintr-o singură trecere. Poți păstra statul pe parcursul ședințelor lungi. Poți opri să faci slumping de context doar ca să supraviețuiești limitelor.