DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Grande sortie de DeepSeek. Et un gros coup pour les LLMs open-source. DeepSeek-V3.2-Speciale est à la hauteur de Gemini-3-Pro lors de l'Olympiade Internationale de Mathématiques (IMO) 2025 et de l'Olympiade Internationale en Informatique (IOI). Il dépasse même le Gemini 3 Pro sur plusieurs benchmarks. DeepSeek identifie trois goulets d'étranglement critiques : > des mécanismes d'attention vanille qui s'étouffent sur de longues séquences, > un calcul post-formation insuffisant, > et une généralisation faible dans des scénarios agentiques. Ils introduisent DeepSeek-V3.2, un modèle qui s'attaque simultanément à ces trois problèmes. Une innovation clé est l'Attention Sparse de DeepSeek (DSA), qui réduit la complexité d'attention de O(L²) à O(Lk) où k est bien plus petit que la longueur de la séquence. Un "indexeur éclair" léger évalue quels tokens sont importants, puis seuls ces top-k tokens reçoivent une attention complète. Le résultat : des gains de vitesse significatifs sur de longs contextes sans sacrifier la performance. Mais l'architecture seule ne suffit pas. DeepSeek alloue un calcul post-formation dépassant 10 % du coût de pré-formation, un investissement RL massif qui se traduit directement par une capacité de raisonnement. Pour les tâches agentiques, ils ont construit un pipeline de synthèse d'environnement automatique générant 1 827 environnements de tâches distincts et plus de 85 000 prompts complexes. Agents de code, agents de recherche et tâches de planification générale (tous synthétisés à grande échelle pour l'entraînement RL) Les chiffres : Sur AIME 2025, DeepSeek-V3.2 atteint 93,1 % (GPT-5-High : 94,6 %). Sur SWE-Verified, 73,1 % résolus. Sur HLE texte uniquement, 25,1 % comparé à 26,3 % pour GPT-5. Leur variante à haute capacité de calcul, DeepSeek-V3.2-Speciale, va plus loin, obtenant des médailles d'or à l'IMO 2025 (35/42 points), à l'IOI 2025 (492/600), et aux finales mondiales ICPC 2025 (10/12 problèmes résolus). C'est le premier modèle open à rivaliser de manière crédible avec les systèmes propriétaires de pointe sur les benchmarks de raisonnement, de codage et agentiques.

Meilleurs

Classement

Favoris