Die meisten Menschen denken, dass dezentrale Berechnungen scheitern, weil "es nicht genug GPUs gibt." Sie schauen auf das Angebot. Der eigentliche Hemmschuh ist die Koordination, und wer das löst, darf die Regeln für die AI-Infrastruktur festlegen. 🧵
/2 Wir lernen weiterhin die falsche Lektion aus freiwilliger Rechenleistung wie Folding@Home. Diese Aufgaben tolerieren langsame Knoten und Ausfälle. Modernes AI-Training und -Inference bestrafen Inkonsistenz; eine fehlerhafte GPU kann den gesamten Ablauf zum Stillstand bringen.
/3 Eine Frage kommt immer wieder auf: Können global verteilte, nicht übereinstimmende GPUs wie eine vorhersehbare Maschine agieren? Wenn die Antwort nein ist, spielt Zuverlässigkeit und Entwicklererfahrung keine Rolle, denn nichts wird ausgeliefert.
/4 Das Internet lässt GPUs wie Instrumente mit unterschiedlicher Stimmung agieren. Rechenzentrumsstacks gehen von perfektem Timing aus. Ein globales Mesh bringt Jitter, ungleichmäßige Bandbreite, zufällige Ausfallzeiten und Hardwarevariationen mit sich. Die Koordination muss dieses Chaos bewältigen.
/5 @YottaLabs verfolgt den OS-Weg, nicht den Marktplatzweg. Planung, Kommunikation, Speicherentlastung, Fehlerbehandlung, Verifizierung. Der Punkt ist einfach: Verwandle unzuverlässige Maschinen in ein Cluster, das sich ausreichend vorhersehbar für SLAs verhält.
/6 Die konkreteste Erkenntnis: Teile die Inferenz in zwei Aufgaben auf. Prefill benötigt die besten GPUs. Decode kann auf schwächeren GPUs laufen. Dieses Design verhindert, dass teure Karten auf billige warten müssen, und macht „gemischte Flotten“ nützlich statt schmerzhaft.
/7 Dann der versteckte Engpass, das Verschieben des Arbeitsgedächtnisses des Modells (KV-Cache). Wenn Sie es in einer großen Übertragung versenden, kommen Sie zum Stillstand. Yotta streamt kleine Stücke, während die Berechnung läuft, und komprimiert den Cache, sodass die WAN-Latenz nicht dominiert.
101