Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gavin Baker
Managing Partner & CIO, @atreidesmgmt. Ehemann, @l3eckyy. Kein Anlagerat, meine eigenen Ansichten. https://t.co/pFe9KmNu9U
Ich liebe @semianalysis, aber Konkurrenz ist gut für alle und @fundabottom leistet hervorragende Arbeit im Bereich KI und den sich entwickelnden Rechenzentrumsarchitekturen, die dem zugrunde liegen.

FundaAI5. Jan., 23:48
Deep| $LITE: Googles neu eingeführte Switch-Tray im Rack ist tatsächlich positiv für OCS und Optik
FundaAI
Kürzlich gab es umfangreiche Diskussionen über Googles Einführung eines neuen Switch-Trays im Rack innerhalb zukünftiger TPU-Racks. Die vorherrschende Meinung ist, dass dieses neue Switch-Tray, wenn es zusammen mit TPU-Racks verkauft wird, die an externe Kunden gehen, das 3D-Torus-Netzwerk durch ein CLOS-Netzwerk ersetzt und daher negativ für OCS sein könnte.
Wir haben diese Änderung sehr früh erkannt und eigene Überprüfungen der Lieferkette durchgeführt. Wir fanden heraus, dass die meisten Analysen Googles Netzwerk-Topologie erheblich missverstehen, weshalb wir diese Notiz geschrieben haben, um die Situation zu klären. Diese Verwirrung besteht schon lange, hauptsächlich weil Googles Netzwerkarchitektur wirklich einzigartig ist.
Detaillierter Bericht

49
Nvidia kauft Groq aus zwei Gründen, meiner Meinung nach.
1) Die Inferenz wird in Prefill und Decodierung aufgeteilt. SRAM-Architekturen haben einzigartige Vorteile in der Decodierung für Arbeitslasten, bei denen die Leistung hauptsächlich von der Speicherbandbreite abhängt. Rubin CPX, Rubin und die vermeintliche „Rubin SRAM“-Variante, die von Groq abgeleitet ist, sollten Nvidia die Möglichkeit geben, Chips zu kombinieren und anzupassen, um das optimale Gleichgewicht zwischen Leistung und Kosten für jede Arbeitslast zu schaffen. Rubin CPX ist für massive Kontextfenster während des Prefills optimiert, was auf die extrem hohe Speicherkapazität mit seinem relativ niedrigen Bandbreiten-GDDR-DRAM zurückzuführen ist. Rubin ist das Arbeitstier für Trainings- und hochdichte, gebündelte Inferenzarbeitslasten, wobei sein HBM-DRAM ein Gleichgewicht zwischen Speicherbandbreite und -kapazität schlägt. Das von Groq abgeleitete "Rubin SRAM" ist für ultra-niedrige Latenz bei agentischem reasoning Inferenzarbeitslasten optimiert, was auf die extrem hohe Speicherbandbreite von SRAM bei geringerer Speicherkapazität zurückzuführen ist. In letzterem Fall wird wahrscheinlich entweder CPX oder das normale Rubin für Prefill verwendet.
2) Es war schon lange klar, dass SRAM-Architekturen Token-pro-Sekunde-Metriken erreichen können, die viel höher sind als die von GPUs, TPUs oder irgendeinem ASIC, den wir bisher gesehen haben. Extrem niedrige Latenz pro einzelnen Benutzer auf Kosten des Durchsatzes pro Dollar. Vor 18 Monaten war weniger klar, ob Endbenutzer bereit waren, für diese Geschwindigkeit zu zahlen (SRAM ist pro Token teurer aufgrund viel kleinerer Batchgrößen). Es ist jetzt überdeutlich aus den jüngsten Ergebnissen von Cerebras und Groq, dass Benutzer bereit sind, für Geschwindigkeit zu zahlen.
Das erhöht mein Vertrauen, dass alle ASICs außer TPU, AI5 und Trainium letztendlich eingestellt werden. Viel Glück beim Wettbewerb mit den 3 Rubin-Varianten und mehreren zugehörigen Netzwerkchips. Obwohl es so klingt, als würde OpenAIs ASIC überraschend gut sein (viel besser als die ASICs von Meta und Microsoft).
Mal sehen, was AMD macht. Intel bewegt sich bereits in diese Richtung (sie haben eine für Prefill optimierte SKU und haben SambaNova gekauft, das der schwächste SRAM-Wettbewerber war). Lustig, dass Meta Rivos gekauft hat.
Und Cerebras, wo ich voreingenommen bin, befindet sich jetzt in einer sehr interessanten und hochstrategischen Position als der letzte (nach öffentlichem Wissen) unabhängige SRAM-Spieler, der Groq in allen öffentlichen Benchmarks voraus war. Groqs „Many-Chip“-Rack-Architektur war jedoch viel einfacher in Nvidias Netzwerk-Stack zu integrieren und vielleicht sogar innerhalb eines einzelnen Racks, während Cerebras WSE fast ein unabhängiges Rack sein muss.
359
Top
Ranking
Favoriten

