Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gavin Baker
Managing Partner & CIO, @atreidesmgmt. Ehemann, @l3eckyy. Kein Anlagerat, meine eigenen Ansichten. https://t.co/pFe9KmNu9U
Nvidia kauft Groq aus zwei Gründen, meiner Meinung nach.
1) Die Inferenz wird in Prefill und Decodierung aufgeteilt. SRAM-Architekturen haben einzigartige Vorteile in der Decodierung für Arbeitslasten, bei denen die Leistung hauptsächlich von der Speicherbandbreite abhängt. Rubin CPX, Rubin und die vermeintliche „Rubin SRAM“-Variante, die von Groq abgeleitet ist, sollten Nvidia die Möglichkeit geben, Chips zu kombinieren und anzupassen, um das optimale Gleichgewicht zwischen Leistung und Kosten für jede Arbeitslast zu schaffen. Rubin CPX ist für massive Kontextfenster während des Prefills optimiert, was auf die extrem hohe Speicherkapazität mit seinem relativ niedrigen Bandbreiten-GDDR-DRAM zurückzuführen ist. Rubin ist das Arbeitstier für Trainings- und hochdichte, gebündelte Inferenzarbeitslasten, wobei sein HBM-DRAM ein Gleichgewicht zwischen Speicherbandbreite und -kapazität schlägt. Das von Groq abgeleitete "Rubin SRAM" ist für ultra-niedrige Latenz bei agentischem reasoning Inferenzarbeitslasten optimiert, was auf die extrem hohe Speicherbandbreite von SRAM bei geringerer Speicherkapazität zurückzuführen ist. In letzterem Fall wird wahrscheinlich entweder CPX oder das normale Rubin für Prefill verwendet.
2) Es war schon lange klar, dass SRAM-Architekturen Token-pro-Sekunde-Metriken erreichen können, die viel höher sind als die von GPUs, TPUs oder irgendeinem ASIC, den wir bisher gesehen haben. Extrem niedrige Latenz pro einzelnen Benutzer auf Kosten des Durchsatzes pro Dollar. Vor 18 Monaten war weniger klar, ob Endbenutzer bereit waren, für diese Geschwindigkeit zu zahlen (SRAM ist pro Token teurer aufgrund viel kleinerer Batchgrößen). Es ist jetzt überdeutlich aus den jüngsten Ergebnissen von Cerebras und Groq, dass Benutzer bereit sind, für Geschwindigkeit zu zahlen.
Das erhöht mein Vertrauen, dass alle ASICs außer TPU, AI5 und Trainium letztendlich eingestellt werden. Viel Glück beim Wettbewerb mit den 3 Rubin-Varianten und mehreren zugehörigen Netzwerkchips. Obwohl es so klingt, als würde OpenAIs ASIC überraschend gut sein (viel besser als die ASICs von Meta und Microsoft).
Mal sehen, was AMD macht. Intel bewegt sich bereits in diese Richtung (sie haben eine für Prefill optimierte SKU und haben SambaNova gekauft, das der schwächste SRAM-Wettbewerber war). Lustig, dass Meta Rivos gekauft hat.
Und Cerebras, wo ich voreingenommen bin, befindet sich jetzt in einer sehr interessanten und hochstrategischen Position als der letzte (nach öffentlichem Wissen) unabhängige SRAM-Spieler, der Groq in allen öffentlichen Benchmarks voraus war. Groqs „Many-Chip“-Rack-Architektur war jedoch viel einfacher in Nvidias Netzwerk-Stack zu integrieren und vielleicht sogar innerhalb eines einzelnen Racks, während Cerebras WSE fast ein unabhängiges Rack sein muss.
259
Ich bin tief amüsiert über all die selbstbewussten Kommentare, dass Rechenzentren im Weltraum aus physikalischer und ingenieurtechnischer Sicht nicht funktionieren.
Elon betreibt zwei der größten kohärenten GPU-Cluster der Welt, SpaceX ist für über 90 % der Masse in den Orbit verantwortlich und SpaceX betreibt die größte Satellitenkonstellation im Sonnensystem. Mehr als 10 Jahre später kann kein anderes Unternehmen oder Land konstant orbitalen Raketen landen und wiederverwenden.
Er hat öffentlich erklärt, dass der "kostengünstigste Weg, KI-Computing zu betreiben, mit solarbetriebenen Satelliten sein wird."
Vielleicht, nur vielleicht, ist seine "Bleistift- und Papieranalyse der Physik oder der wirtschaftlichen Gegebenheiten" überlegen zu deiner. Es könnte sogar mehr als nur eine "Bleistift- und Papieranalyse" zu diesem Thema von einigen der besten Ingenieure der Welt durchgeführt worden sein. Vielleicht haben sie an eine Kühlungslösung gedacht, die den hier anwesenden Galaxy-Brain-Konten nicht in den Sinn gekommen ist, selbst nachdem sie mehrere Minuten darüber nachgedacht haben.
Der CEO von Google stimmt ebenfalls zu, dass Rechenzentren im Weltraum innerhalb eines Jahrzehnts "normal" sein werden.
Wenn du derzeit kein großes KI-Rechenzentrum betreibst, keinen großen Satellitencluster hast und keine Rakete gelandet hast, sei vielleicht ein wenig weniger schnell dabei, selbstbewusst anzunehmen, dass Elon und Google *beide* in diesem Thema falsch liegen.
Besonders wenn es heute ein funktionierendes, wenn auch sehr kleines, Rechenzentrum im Weltraum gibt - das orbital Setup von Starcloud hat gerade erfolgreich ein LLM trainiert. Toller Name übrigens.
Ja, ich bin in diesen Themen voreingenommen und wie immer wird die Zeit es zeigen.
315
Top
Ranking
Favoriten

