Mitt syn på at GPUer har en reell 1-2 års levetid i stedet for +4 år åpner for mange spørsmål, så la meg forklare mer detaljert: For det første er alle motargumentene følgende "men H100, A100 brukes fortsatt og de er 3-5 år gamle", "kunder vil bruke gamle GPUer for inferensarbeidsbelastninger", "big tech bruker gamle GPUer for interne arbeidsbelastninger" Her er grunnen til at dette er feil tenkning: 1. Folk glemmer at $NVDA har gått til en 1-årig produktsyklus i 2024 (ikke før!), så Blackwell er fortsatt et produkt av en 2-årig produktsyklus. Før Blackwell Hopper -H100 var H200 produktet, og før det var A100 produktet. Så først og fremst er ikke H100 et 3 år gammelt produkt; det er et 1 år gammelt produkt når det gjelder produktsyklus (like etter Blackwell). Nvidia begynte også å sende H100 med seriøse volumer i begynnelsen av 2023. Fremover fra i dag vil vi hvert år få et nytt produkt som vil være betydelig mer effektivt (10x-30x) og effektivt enn forrige generasjon, så ikke hvert 2. 2. Vi går fra en verden der hver ekstra GPU/akseleratordistribusjon er inkrementell til en verden der det meste av distribusjonen er erstatning (ikke inkrementell), siden vi er begrenset. Vi er begrenset av strøm og tilgjengelige datasentre. Så selvfølgelig, når du har en overflod av datasenterplass og strøm, kommer du også til å bruke de "gamle" GPUene, siden du har nok plass til å distribuere dem. Men når du går tom for den distribusjonsplassen og er begrenset, er den begrensende faktoren din strøm, og så ser du etter hvor mange tokens genererer du per watt du har. Hvis den nye generasjonen GPUer gir deg 10 ganger tokens/watt enn den forrige, hvis du vil vokse og betjene flere klienter, må du erstatte den med den nye generasjonen, og du kan ikke "bruke" den "gamle" GPUen, siden du ikke har noe sted å distribuere den. Igjen, tingen å forstå er at vi beveger oss fra GPU-knapp til POWER-knapp, og dette endrer ting. 3. Å male et bilde av "åh, men de gamle GPUene vil bli brukt til interne arbeidsbelastninger" er feil. Det er bare en håndfull selskaper som har luksusen av å ha sin egen skyvirksomhet, pluss å ha også en stor forbruker- eller bedriftsvirksomhet, som kan ta på seg noen av disse eldre GPUene (igjen, selv disse brukstilfellene vil bli drastisk redusert når vi går inn i fasen beskrevet i argument 2). Skyleverandørene vil ikke ha nok etterspørsel og gode marginer til å kjøre den "gamle" generasjonen GPUer for skykunder, siden disse GPUene ikke er eiendeler som bare tjener penger når du kjøper dem; de koster også. De koster strøm (strømprisene stiger), de koster kjøling, og de koster i vedlikehold. 4. Slutning med tenke- og resonneringsmodeller har endret seg drastisk. Nå kan en mindre, mindre ytelsesmodell når det gjelder parametere yte bedre enn en større modell, hvis du gir den mer beregning på slutningssiden "å tenke". Inferensberegning er også et nytt skaleringsparadigme. Hva det betyr er at forskjellen om du kjører slutning på en H100, eller en B300, eller en B200 er enorm. Vi flytter også markedet fra opplæringsarbeidsbelastning til slutning. Med trening var AI-forskningslaboratorienes viktigste beregning ytelse og hastigheten de kunne trene en ny modell med. Når vi nå går inn i slutningstiden, er den viktigste beregningen kostnader, så hvis B300 gir deg 10x-30x mengden tokens for de samme kostnadene som en eldre GPU, vil du erstatte den, siden du vil betjene så mange kunder du kan, og du vil tjene litt fortjeneste. I følge nylige rapporter taper OAI $3 for hver $1 den tjener. Dette vil ikke vare evig, og en av de viktigste tingene å endre er å kjøre inferens på de nye og effektive GPUene/akseleratorene.