Die Einbettungsparameter sind wieder heiß, erstaunliches Papier von LongCat Flash, zeitgleich mit DeepSeek's Engram! Unterschiede zu Engram: -> keine Einbettung pro Schicht (sie haben es mit der Einbettung pro Schicht (PLE) versucht, aber keine echten Gewinne erzielt) -> einfache Durchschnittsfusion anstelle von Engrams dynamischer kontextsensitiver Steuerung -> Einbettungen nur in der Eingabeschicht (im Gegensatz zu Engrams tieferer Schichtinjektion) Ähnlich wie Engram: -> mehrere Hash-Subtabellen zur Reduzierung von Kollisionen -> ähnliches U-förmiges Skalierungsgesetz für MoE vs N-Gramm-Zuweisung -> nur vorteilhaft bei hoher Sparsamkeit (wenn MoE abnehmende Erträge erzielt) Weitere wichtige Erkenntnisse: -> breitere Modelle profitieren mehr; tiefere Modelle sehen abnehmende Erträge -> muss die Einbettungsausgabe (√D oder LayerNorm) verstärken, um ein Ertrinken durch die erste Aufmerksamkeitschicht zu verhindern -> die Vokabulargröße muss ganzzahlige Vielfache des Basisvokabulars vermeiden (Kollisionsspitzen) -> ≤50% der Parameter für Einbettungen, sonst gewinnt reines MoE -> schöne Synergie mit spekulativer Dekodierung