Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
Die Einbettungsparameter sind wieder heiß, erstaunliches Papier von LongCat Flash, zeitgleich mit DeepSeek's Engram!
Unterschiede zu Engram:
-> keine Einbettung pro Schicht (sie haben es mit der Einbettung pro Schicht (PLE) versucht, aber keine echten Gewinne erzielt)
-> einfache Durchschnittsfusion anstelle von Engrams dynamischer kontextsensitiver Steuerung
-> Einbettungen nur in der Eingabeschicht (im Gegensatz zu Engrams tieferer Schichtinjektion)
Ähnlich wie Engram:
-> mehrere Hash-Subtabellen zur Reduzierung von Kollisionen
-> ähnliches U-förmiges Skalierungsgesetz für MoE vs N-Gramm-Zuweisung
-> nur vorteilhaft bei hoher Sparsamkeit (wenn MoE abnehmende Erträge erzielt)
Weitere wichtige Erkenntnisse:
-> breitere Modelle profitieren mehr; tiefere Modelle sehen abnehmende Erträge
-> muss die Einbettungsausgabe (√D oder LayerNorm) verstärken, um ein Ertrinken durch die erste Aufmerksamkeitschicht zu verhindern
-> die Vokabulargröße muss ganzzahlige Vielfache des Basisvokabulars vermeiden (Kollisionsspitzen)
-> ≤50% der Parameter für Einbettungen, sonst gewinnt reines MoE
-> schöne Synergie mit spekulativer Dekodierung


Meituan LongCat29. Jan., 00:26
🚀 Skalierung von Embeddings, nicht nur von Experten – wir stellen einen neuen Weg für effiziente LLMs vor.
Wichtiges Ergebnis: In Szenarien mit hoher Sparsamkeit liefern N-Gramm-Embeddings eine bessere Pareto-Front als nur das Hinzufügen weiterer MoE-Experten.
Daher stellen wir LongCat-Flash-Lite vor – das erste Open-Source-Modell, das auf dieser Erkenntnis basiert.
⚙️ 68,5B Gesamtparameter (37,13B nicht-Embedding) | 2,9B~4,5B aktiv
📊 Hohe Leistung: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75
📃 256K Kontextfenster (YARN-unterstützt)
✨ Optimiert für Agentic/Coding, stark im allgemeinen Denken
⚡ ~700 Tokens/s Spitzeninferenzgeschwindigkeit
Das Ergebnis: Erreicht wettbewerbsfähige Leistung innerhalb seines Maßstabs zu deutlich niedrigeren Kosten und Latenz.
Hugging Face:
Technischer Bericht:



17
15T ist dasselbe Budget wie das ursprüngliche Pre-Training von Kimi K2. Soweit ich weiß, ist dies das erste Mal, dass ein Team offen einen vorherigen Checkpoint verwendet, um ein noch stärkeres Modell zu entwickeln.
Wir werden immer mehr von diesen "Mid-Training"-Interventionen sehen, um die Architektur, Modalitäten, besseren langen Kontext und bessere agentische Daten zu ändern..
Das ist sehr aufregend und ermöglicht es anderen Unternehmen, in das Rennen einzusteigen (Cursor?), dank Anbietern wie Kimi (und anderen wie DeepSeek, Meituan, Zai,...) die das Basismodell veröffentlichen.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)27. Jan., 13:54
> aufgebaut durch kontinuierliches Pretraining auf etwa 15 Billionen gemischten visuellen und Text-Tokens auf Kimi-K2-Base
… Es ist im Grunde ein völlig neues Modell mit neuen Fähigkeiten. 30T Tokens @ Muon.
«Kimi K2.5 stellt einen bedeutenden Schritt in Richtung AGI für die Open-Source-Community dar»
wow ok

27
Top
Ranking
Favoriten

