Eine ziemlich mutige Sache, die DeepSeek macht, ist, dass sie zeigen, dass Engram bei bis zu 27B großartig abschneidet und dann bei 40B, wo es sich praktisch nicht weiter verbessert, und sie sagen: «eh, es ist untertrainiert». Ich denke, das Kapazitätsprofil der Engram-Schichten im Vergleich zu FFNs hat nicht triviale Auswirkungen auf verschiedenen Skalen.
Es erinnert mich an DS-MoE, wo sie die «halb aktivierte» Variante als etwas sehr Ambitioniertes betrachteten, das Konzept bis an die Grenzen zu treiben. Natürlich hatte V2 schließlich genau dieses Sparsamkeitsverhältnis, und V3 war sparsamer.
189