also wählst du den Tod
Um auf der Objektebene zu antworten @TheZvi Technisch gesehen könnte DSA ein großer Sprung sein, der Kontexte im Gemini-Maßstab trivial günstig macht, selbst für Modelle der vorherigen Generation. Vorbehalte: - Wir sind uns nicht sicher, *ob* es auf 1M+ skaliert (aber V3.2 exp≥V3.1 trotz identischem Pretraining, und V3.2>> exp, also sehr wahrscheinlich ja) - Wir sind uns nicht sicher, wie es ohne Bootstrapping von dichten Aufmerksamkeiten trainiert werden kann. Vielleicht weiß DeepSeek Bescheid. Ich denke, V4 wird DSA nicht verwenden, es wird ausdrücklich als Prototyp bezeichnet. Im schlimmsten Fall ist es auch sinnvoll, mit voller Aufmerksamkeit vorzutrainieren => zu erweitern => zu sparsifizieren, man hat höhere Kosten im Pretraining für dauerhaft günstigere Inferenz. - Kimis KDA oder Qwens GDN+ oder etwas könnte sogar besser sein als DSA+/NSA+ Abgesehen von diesen Vorbehalten ist dies keine 2-fache Preisreduzierung, ich bin sarkastisch. Eher wie 10-fach. Sparse Attention, die sich nicht verschlechtert, ist ein ziemlich großes Ding. Zur Geschwindigkeit ist es aus der Perspektive des Modells ein leerer Punkt. DeepSeek ist nicht daran interessiert, das beste Produkt anzubieten. Sie bedienen mit massiven Batches von H800s/Ascends. Man kann es auf amerikanischer Hardware betreiben und 60-150 t/s erreichen, oder auf Cerebras und GLM-ähnliche 1000 t/s erreichen, ohne die Kosten zu sprengen. Diese Architektur ist von Natur aus schnell (flach, günstige Aufmerksamkeit), es ist nur so, dass DeepSeek es langsam bedient. Zur Grenzintelligenz sage ich, dass diese «usemaxing» Vorteile der Grenze – hauptsächlich agentisches Codieren, aber man kann auf die gleiche Weise mehr Bereiche abdecken – ein Produkt der Rechenausgaben für RL-Schritte und für das Iterieren durch synthetische Umgebungen sind. Sie haben das Rezept. Sie berichten, dass ≈10% der Pretraining-Kosten für Speciale ausgegeben wurden. Das sind ≈600K $. Grok 4 hat angeblich 100% von Grok 3 verwendet, oder zig-hundert Millionen. Es war offensichtlich sehr ineffizient mit Grok, aber ich denke, DeepSeek könnte leicht auf 100% gehen, das Rezept ist bekannt. Sie wollen es wahrscheinlich nicht auf einer obsoleten Basis verschwenden, da sie anmerken, dass es weiterhin wissensengpassbedingt bleibt. Ich finde die sorglose Haltung gegenüber IMO-Grad-Mathematikleistung (oder dem Zero-Shot-Lösen von Erdos-Problemen auf dem Niveau, dass der menschliche Löser sagt «ja, das ist im Grunde meine Lösung») lustig. Sollten wir nicht alle AGI von unabhängiger mathematischer Forschung erwarten? Oder ist es jetzt nur noch Codierung? Arguably ist das die interessanteste Fähigkeit zur Schätzung der Startgeschwindigkeiten. Aber was auch immer, ich glaube selbst an einen langsamen Start, Selbstverbesserung wird auf logistische Probleme stoßen, egal wo wir anfangen. Der Hauptbeitrag hier, wie ich gesagt habe, ist, dass sie den Glauben ankündigen, dass sie grundsätzlich das Training von LLMs an der Grenze bis Ende 2025 als Forschungsprogramm gelöst haben und das aktuelle westliche Niveau oder darüber hinaus erreichen könnten, nur indem sie mehr Rechenleistung investieren (plus kleinere Anpassungen hinsichtlich der Token-Effizienz). Theoretisch kann ihre Ankündigung, dass sie sich mit dem Training in größerem Maßstab befassen, am Ende als «und das machen wir jetzt» interpretiert werden. Aber das bleibt abzuwarten.
@TheZvi > trotz identischem Pretraining und Post-Training, Korrektur
2,86K