DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

unter dem Radar geflogen: ein Mamba-2+MLA-Hybrid, *post-trainiert* von Llama 3. Wir wussten, dass GQA=>vollständiges MLA machbar ist. Kimi hat bewiesen, dass man MLA und lineare Aufmerksamkeiten kombinieren kann (KDA ist jedoch raffinierter als Mamba2), aber sie wurden von Grund auf trainiert. Das ist technisch beeindruckend.

Top

Ranking

Favoriten