Chamath: To begreper du må være oppmerksom på i AI er Prefill og Decode "Det er to begreper jeg tror du kommer til å høre mye om de neste årene." "Det første leddet er prefill, og det neste er decode." "Hva prefill og dekoding er, er to svært forskjellige måter modeller tenker på, og hvordan en modell går gjennom prosessen med å svare på et spørsmål du stiller den." "Og når du sender en prompt til AI, skjer det at modellen behandler den. Dette kalles lesefasen eller prefill." "Den leser hele prompten din på én gang. Og så gjør den mye matematikk, regner ut alle disse relasjonene mellom alle ordene, og lagrer dem i midlertidig minne." "Problemet er at dette egentlig er beregningsbundet. Så det krever massiv råstyrke. Og Nvidia-GPU-er knuser her." "Og arkitekturen deres er designet for massiv parallell prosessering, noe som gjør dem virkelig fantastiske til å fordøye disse lange promptene." "Så problemet blir bare større og større, Nvidia dominerer fullstendig." "Men neste fase, denne kritiske fasen, dekodingsfasen, er skrivefasen, ikke sant?" "Så modellen begynner å generere et svar, du stiller den et spørsmål og svaret, ett token om gangen." "Og så må den se tilbake på alt den allerede har sagt, for å unngå hallusinasjoner." "Problemet er at dette er utrolig begrenset av minnebåndbredde." "Og i vår arkitektur, for lenge siden, tok vi disse designbeslutningene fra dag én." "Så det vi gjorde, var at vi tok en helt annen arkitektonisk tilnærming, vi tok en veldig konservativ prosessteknologi. Vi presset ikke grensene for fysikken." ...