Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mnoho lidí je zmateno nedávným návratem Minimaxu k plné pozornosti - zejména proto, že to byl první velký obrat směrem k hybridní lineární pozornosti - a Kimiho pozdějším přijetím hybridních lineárních variant (stejně jako dřívějšími pokusy Qwen3-Next nebo Qwen3.5). Vlastně oceňuji otevřenost Minimaxu: přiznali výzvy a lítost hybridní lineární pozornosti nebo pozornosti s posuvným oknem na multi-hop uvažovacích úlohách, které by jen málo laboratoří řeklo nahlas.
To znamená, že "lítost" nemusí být tak špatné, jak to zní. Minimax používal velmi jednoduchou lineární variantu pozornosti (z velké části kvůli nedostatečnému vyhodnocení v té době), takže výkonnostní mezera byla pravděpodobně přehnaná. Strategie neustálého předtréninku (tj. přechod od globální pozornosti k hybridní pozornosti pomocí posuvného okna) se také zdála být docela neoptimální. A navíc, hybridní lineární pozornost může stále fungovat velmi dobře téměř ve všech benchmarcích s výjimkou multi-hop uvažování. Pokud se podaří udržet pokles výkonu při uvažování s více skoky dostatečně malý, aby bylo možné jej vyměnit za lepší efektivitu odvozování a efektivitu dat, má hybridní lineární pozornost stále dostatek prostoru k růstu.
Lepší vrstvy lineární složitosti stále stojí za prozkoumání, zejména s ohledem na zlepšující se infrastrukturu z frameworků jako vLLM a SGLang. Koneckonců, nechceme, aby naše agentické modely byly navždy omezeny délkou kontextu - to je omezení, které budeme muset dříve nebo později překonat
Top
Hodnocení
Oblíbené

