Faire plus avec beaucoup moins — quelques références des principaux modèles open source. "Bien qu'opérant avec une fraction du nombre de paramètres actifs, ZAYA1-base (760m actifs) atteint des performances comparables à des modèles de premier plan tels que Qwen3-4B (Alibaba) et Gemma3-12B (Google), et surpasse des modèles comme Llama-3-8B (Meta) et OLMoE dans les benchmarks de raisonnement, de mathématiques et de codage." — Premier graphique — détails sur l'Attention Convolutionnelle Comprimée de Zyphra (CCA) : P.S. la réponse à mon slogan : "Zyphra est sans ironie *le* DeepSeek de l'Ouest... d'autant plus qu'il s'agit de l'un des laboratoires les plus ouverts *et* démographiquement occidentaux (tandis que DeepSeek est bien sûr 100% chinois). Rigueur mathématique et culture scientifique." — + Blog Technique : et + Document Technique : + Hugging Face :