Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Im Handumdrehen explodiert die Kapazität der AI-Speicherung um 12.300 % (siehe Berechnung unten). Diese Woche hat NVIDIA eine massive Verbesserung der GPU-Effizienz vorgestellt: eine neue spezialisierte AI-Speicherarchitektur, die den Kontext/Tokens erweitert, die in HBM verarbeitet werden - und die jetzt den Kontext in den gemeinsamen NVMe-Speicher auslagern kann. Durch das Speichern des Kontexts in einem KV-Cache vermeiden Inferenzsysteme die Kosten für die Neuberechnung des Kontexts (bei großen Kontextinferenz), was die Zeit bis zum ersten Token um das 20-fache oder mehr verkürzt.
Was die Leute nicht realisieren, ist, dass dies ein völlig neuer Datengenerator ist - und nicht nur benötigt der Markt einen neuen Ansatz für Speichergeschwindigkeit und -effizienz, sondern viele (regulierte) AI-Labore werden weiterhin die Fähigkeit zur Unternehmensdatenverwaltung benötigen, die nicht zugunsten von roher Geschwindigkeit geopfert werden kann.
NVIDIA nennt dies die Inference Context Memory Storage (ICMS) Plattform. Wir arbeiten seit Wochen mit ihnen zusammen, um einen neuen Weg zur Konfiguration von VAST-Systemen zu entwickeln, der ultimative Effizienz bietet, indem die Kernlogik der VAST-Systeme direkt in die BlueField-DPU der GPU-Maschinen eingebettet wird.
**Die 12x sind kein Scherz. Ich habe heute die Berechnung gemacht**
- Ein standardmäßiges VAST-System, minimal konfiguriert für einen NCP (NVIDIA Cloud Partner), hat ungefähr 1,3 TB Daten pro GPU in einem Cluster der GB200-Klasse.
- Wenn wir zusätzliche Infrastruktur für die Kontextspeichererweiterung hinzufügen, benötigen GPUs zusätzlich 16 TB, während wir in die Vera Rubin-Ära eintreten. 12,3x.
Warum @VAST_Data, könnten Sie fragen?
1. Unsere parallele DASE-Architektur ermöglicht es uns, VAST-Server direkt in jeden BlueField-Server einzubetten. Dies reduziert nicht nur die Infrastrukturanforderungen im Vergleich zu herkömmlichen Konfigurationen, bei denen separate x86-Server von GPU-Clients geteilt wurden, sondern verändert auch das grundlegende Client-Server-Paradigma... wo zum ersten Mal jede GPU-Client-Maschine jetzt ihren eigenen dedizierten Server hat. VASTs parallele, disaggregierte, Shared-Everything-Architektur macht es möglich, Server in jeden Client einzubetten, ohne dass es zu Störungen zwischen den VAST-Servern kommt, wie es bei jeder anderen Speichertechnologie der Fall wäre.
Jeder Server verbindet sich dann direkt mit allen SSDs des Clusters, was einen einzigen Zero-Copy-Hüpf erfordert, um auf den gesamten gemeinsamen Kontext zuzugreifen - sodass jede Maschine den Kontext in Echtzeit abrufen kann. Die Effizienz und Skalierbarkeit dieser Architektur ist beispiellos.
2. Während wir großartige Leistung erzielen können, indem wir die Datenservices, die in BlueField laufen, reduzieren, ermöglicht uns unsere peinlich parallele Architektur, zusätzliche Server an dasselbe Netzwerk anzuhängen, um optionale Hintergrundunternehmensdatenverwaltung bereitzustellen... und bringt Funktionen wie Datenschutz, Audit, Verschlüsselung und bis zu 2:1 KVCache-Datenreduktion in ein Cluster, das einen ultra-optimierten Datenpfad zur GPU hat.
Mit VAST müssen AI-Labore sich nicht entscheiden...
Sie können Leistung und herausragende globale Datenmanagementfunktionen erhalten.
Dieser Bereich entwickelt sich gerade... viel Raum zum Erfinden.
Schreiben Sie mir, um die Zukunft der beschleunigten Inferenzsysteme gemeinsam mit uns zu entwickeln.



Top
Ranking
Favoriten
