Mehr erreichen mit viel weniger – einige Benchmarks der führenden Open-Source-Modelle. "Trotz der Arbeit mit einem Bruchteil der aktiven Parameteranzahl erreicht ZAYA1-base (760m aktiv) eine Leistung, die mit führenden Modellen wie Qwen3-4B (Alibaba) und Gemma3-12B (Google) vergleichbar ist, und übertrifft Modelle wie Llama-3-8B (Meta) und OLMoE in den Bereichen Logik, Mathematik und Programmierbenchmarks." — Erstes Diagramm – Details zu Zyphras komprimierter konvolutionaler Aufmerksamkeit (CCA): P.S. die Antwort auf meinen Slogan: "Zyphra ist ironiefrei *das* DeepSeek des Westens... nicht zuletzt, weil es eines der offensten *und* demografisch westlichen Labore ist (während DeepSeek natürlich 100% chinesisch ist). Mathematische Strenge und wissenschaftliche Kultur." — + Technischer Blog: und + Technisches Papier: + Hugging Face: