Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meine Meinung zu GPUs, die nur eine echte Lebensnutzungsdauer von 1-2 Jahren haben, anstatt von +4 Jahren, wirft viele Fragen auf, also lass mich das näher erläutern:
Zuerst sind alle Gegenargumente folgende: "aber H100, A100 werden immer noch verwendet und sie sind 3-5 Jahre alt", "Kunden werden alte GPUs für Inferenz-Workloads verwenden", "große Tech-Unternehmen verwenden alte GPUs für interne Workloads"
Hier ist, warum das die falsche Denkweise ist:
1. Die Leute vergessen, dass $NVDA 2024 auf einen Produktzyklus von 1 Jahr umgestiegen ist (nicht früher!), also ist Blackwell immer noch das Produkt eines 2-jährigen Produktzyklus. Vor Blackwell war Hopper -H100, H200 das Produkt, und davor war das A100 das Produkt. Also ist H100 zunächst einmal kein 3 Jahre altes Produkt; es ist ein 1 Jahr altes Produkt im Hinblick auf den Produktzyklus (gerade nach Blackwell). Nvidia hat auch begonnen, die H100 zu Beginn des Jahres 2023 in ernsthaften Mengen auszuliefern. Von heute an werden wir jedes Jahr ein neues Produkt erhalten, das signifikant leistungsfähiger (10x-30x) und effizienter ist als die vorherige Generation, also nicht alle 2 Jahre, sondern jedes Jahr.
2. Wir bewegen uns von einer Welt, in der jede zusätzliche GPU/Beschleuniger-Bereitstellung inkrementell ist, zu einer Welt, in der die meisten Bereitstellungen Ersatz sind (nicht inkrementell), da wir begrenzt sind. Wir sind durch Strom und verfügbare Rechenzentren begrenzt. Natürlich, wenn du einen Überfluss an Rechenzentrumsfläche und Strom hast, wirst du auch die "alten" GPUs verwenden, da du genug Platz hast, um sie bereitzustellen. Aber sobald du keinen Platz mehr für diese Bereitstellung hast und begrenzt bist, ist dein limitierender Faktor der Strom, und du suchst danach, wie viele Tokens du pro Watt generierst, das du hast. Wenn die neue Generation von GPUs dir 10x die Tokens/Watt im Vergleich zur vorherigen gibt, und du wachsen und mehr Kunden bedienen möchtest, musst du sie durch die neue Generation ersetzen, und du kannst die "alte" GPU nicht "verwenden", da du keinen Platz hast, um sie bereitzustellen. Wiederum ist das zu verstehende Konzept, dass wir von GPU-Mangel zu STROM-Mangel übergehen, und das verändert die Dinge.
3. Das Bild zu zeichnen, dass "oh, aber die alten GPUs werden für interne Workloads verwendet" ist falsch. Es gibt nur eine Handvoll Unternehmen, die das Glück haben, ihr eigenes Cloud-Geschäft zu haben, plus auch ein großes Verbraucher- oder Unternehmensgeschäft, das einige dieser älteren GPUs übernehmen kann (nochmals, selbst diese Anwendungsfälle werden drastisch reduziert, wenn wir in die Phase eintreten, die im Argument 2 beschrieben ist). Die Cloud-Anbieter werden nicht genug Nachfrage und gute Margen haben, um die "alte" Generation von GPUs für Cloud-Kunden zu betreiben, da diese GPUs keine Vermögenswerte sind, die nur Geld verdienen, sobald du sie kaufst; sie kosten auch. Sie kosten Strom (die Strompreise steigen), sie kosten Kühlung und sie kosten Wartung.
4. Inferenz mit Denk- und Modellierungsmodellen hat sich drastisch verändert. Jetzt kann ein kleineres, weniger leistungsfähiges Modell in Bezug auf Parameter besser abschneiden als ein größeres Modell, wenn du ihm mehr Rechenleistung auf der Inferenzseite gibst, um "nachzudenken". Inferenz-Computing ist auch ein neues Skalierungsparadigma. Was das bedeutet, ist, dass der Unterschied, ob du Inferenz auf einer H100, einer B300 oder einer B200 ausführst, enorm ist. Wir bewegen den Markt auch von Trainings-Workloads zu Inferenz. Bei Training war die wichtigste Kennzahl der KI-Forschungslabore die Leistung und die Geschwindigkeit, mit der sie neue Modelle trainieren konnten. Da wir jetzt in die Inferenz-Ära eintreten, ist die wichtigste Kennzahl die Kosten, also wenn die B300 dir 10x-30x die Menge an Tokens für die gleichen Kosten wie eine ältere GPU gibt, wirst du sie ersetzen, da du so viele Kunden wie möglich bedienen und einen Gewinn erzielen möchtest. Laut aktuellen Berichten verliert OAI 3 $ für jeden 1 $, den es verdient. Das wird nicht ewig so weitergehen, und eines der wichtigsten Dinge, die sich ändern müssen, ist, Inferenz auf den neuen und effizienten GPUs/Beschleunigern auszuführen.
Top
Ranking
Favoriten

