Große Veröffentlichung von DeepSeek. Und ein großer Schritt für Open-Source-LLMs. DeepSeek-V3.2-Speciale ist gleichauf mit Gemini-3-Pro bei der Internationalen Mathematischen Olympiade (IMO) 2025 und der Internationalen Olympiade in Informatik (IOI). Es übertrifft sogar das Gemini 3 Pro in mehreren Benchmarks. DeepSeek identifiziert drei kritische Engpässe: > Vanilla-Attention-Mechanismen, die bei langen Sequenzen ins Stocken geraten, > unzureichende Post-Training-Rechenleistung, > und schwache Generalisierung in agentischen Szenarien. Sie führen DeepSeek-V3.2 ein, ein Modell, das alle drei Probleme gleichzeitig angeht. Eine Schlüsselinnovation ist die DeepSeek Sparse Attention (DSA), die die Komplexität der Aufmerksamkeit von O(L²) auf O(Lk) reduziert, wobei k weit kleiner ist als die Sequenzlänge. Ein leichtgewichtiger "Lightning-Indexer" bewertet, welche Tokens wichtig sind, und nur diese Top-k-Tokens erhalten volle Aufmerksamkeit. Das Ergebnis: signifikante Geschwindigkeitssteigerungen bei langen Kontexten, ohne die Leistung zu opfern. Aber Architektur allein reicht nicht aus. DeepSeek weist Post-Training-Rechenleistung zu, die 10 % der Pre-Training-Kosten übersteigt, eine massive RL-Investition, die sich direkt in die Denkfähigkeit übersetzt. Für agentische Aufgaben haben sie eine automatische Umgebungssynthese-Pipeline entwickelt, die 1.827 verschiedene Aufgabenumgebungen und über 85.000 komplexe Aufforderungen generiert. Code-Agenten, Suchagenten und allgemeine Planungsaufgaben (alle in großem Maßstab für RL-Training synthetisiert). Die Zahlen: Bei AIME 2025 erreicht DeepSeek-V3.2 93,1 % (GPT-5-High: 94,6 %). Bei SWE-Verified wurden 73,1 % gelöst. Bei HLE nur Text 25,1 % im Vergleich zu GPT-5's 26,3 %. Ihre Hochleistungsvariante, DeepSeek-V3.2-Speciale, geht noch weiter und erzielt Goldmedaillen bei IMO 2025 (35/42 Punkte), IOI 2025 (492/600) und ICPC World Finals 2025 (10/12 gelöste Probleme). Dies ist das erste offene Modell, das glaubwürdig mit fortschrittlichen proprietären Systemen in den Bereichen Denken, Programmierung und agentische Benchmarks konkurrieren kann.