DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Mit der bevorstehenden Flut an Nachfrage nach Tokens gibt es erhebliche Möglichkeiten, das zugrunde liegende Speicher- und Rechenmodell *genau richtig* für LLMs zu orchestrieren. Die grundlegende und nicht offensichtliche Einschränkung besteht darin, dass man aufgrund des Chip-Fertigungsprozesses zwei völlig unterschiedliche Pools von Speicher erhält (auch mit unterschiedlichen physischen Implementierungen): 1) On-Chip SRAM, das unmittelbar neben den Recheneinheiten liegt, das unglaublich schnell, aber von sehr geringer Kapazität ist, und 2) Off-Chip DRAM, das eine extrem hohe Kapazität hat, dessen Inhalte man jedoch nur durch einen langen Strohhalm saugen kann. Darüber hinaus gibt es viele Details der Architektur (z. B. systolische Arrays), Numerik usw. Das Design des optimalen physischen Substrats und dann die Orchestrierung von Speicher und Rechenleistung über die obersten Volumen-Workflows von LLMs (Inference-Prefill/Decode, Training/Fine-Tuning usw.) mit dem besten Durchsatz/der besten Latenz/$ ist wahrscheinlich das interessanteste intellektuelle Rätsel von heute mit den höchsten Belohnungen (\cite 4.6T von NVDA). All das, um viele Tokens schnell und günstig zu erhalten. Arguably ist der Workflow, der am meisten zählen könnte (Inference-Decode *und* über lange Token-Kontexte in engen agentischen Schleifen), derjenige, der gleichzeitig am schwersten zu erreichen ist, von den ~beiden Lagern dessen, was heute existiert (HBM-first NVIDIA-nah und SRAM-first Cerebras-nah). Wie auch immer, das MatX-Team ist A++-Klasse, daher ist es mir eine Freude, eine kleine Beteiligung zu haben, und herzlichen Glückwunsch zu der Finanzierung!

Top

Ranking

Favoriten