Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die Einbettungsparameter sind wieder heiß, erstaunliches Papier von LongCat Flash, zeitgleich mit DeepSeek's Engram!
Unterschiede zu Engram:
-> keine Einbettung pro Schicht (sie haben es mit der Einbettung pro Schicht (PLE) versucht, aber keine echten Gewinne erzielt)
-> einfache Durchschnittsfusion anstelle von Engrams dynamischer kontextsensitiver Steuerung
-> Einbettungen nur in der Eingabeschicht (im Gegensatz zu Engrams tieferer Schichtinjektion)
Ähnlich wie Engram:
-> mehrere Hash-Subtabellen zur Reduzierung von Kollisionen
-> ähnliches U-förmiges Skalierungsgesetz für MoE vs N-Gramm-Zuweisung
-> nur vorteilhaft bei hoher Sparsamkeit (wenn MoE abnehmende Erträge erzielt)
Weitere wichtige Erkenntnisse:
-> breitere Modelle profitieren mehr; tiefere Modelle sehen abnehmende Erträge
-> muss die Einbettungsausgabe (√D oder LayerNorm) verstärken, um ein Ertrinken durch die erste Aufmerksamkeitschicht zu verhindern
-> die Vokabulargröße muss ganzzahlige Vielfache des Basisvokabulars vermeiden (Kollisionsspitzen)
-> ≤50% der Parameter für Einbettungen, sonst gewinnt reines MoE
-> schöne Synergie mit spekulativer Dekodierung

Top
Ranking
Favoriten
