DeepSeek løste O(L²)-oppmerksomhetsflaskehalsen. Deres nye V3.2-modell introduserer DeepSeek Sparse Attention (DSA), og det er den eneste arkitektoniske endringen de har gjort. Det sier hvor viktig dette er. Hva løser det: Standard oppmerksomhet skalerer kvadratiksk. Dobler kontekstlengden din, firedobl beregningen. Dette er grunnen til at lang-kontekst-inferens blir dyrt raskt. DSA senker kompleksiteten fra O(L²) til O(Lk), hvor k er fast. Slik fungerer det: En lettvekts Lightning Indexer vurderer hvilke tokens som faktisk betyr noe for hver spørring. Lite antall hode, kjører i FP8, beregningsmessig billig. Deretter henter en seleksjonsmekanisme kun de øverste k nøkkelverdioppføringene. Den viktigste innsikten: kun 2 048 tokens blir valgt per spørring, uavhengig av kontekstlengde. Den kostbare oppmerksomhetsberegningen skjer på dette lille delsettet, ikke på hele 128K-sekvensen. Mindre oppmerksomhet, bedre resultater. DeepSeek V3.2 beviste nettopp det. Resultatene: Ved 128K-kontekst faller forhåndsfyllingskostnadene fra ~0,65 til ~0,35 dollar per million tokens. Dekodingen faller fra ~$2,4 til ~$0,8. Og prestasjon? Det forblir det samme. På noen langtidskontekst-benchmarks scorer V3.2 faktisk høyere. Sparsom oppmerksomhet er ikke noe nytt. Å få det til å fungere uten å miste kvalitet er vanskelig. DeepSeek løste dette med en totrinns treningsprosess, først ved å justere indekseren ved hjelp av KL-divergens, deretter ved å trene hele modellen for å tilpasse seg sparsomme mønstre. Slik skalerer du kontekst uten å skalere kostnadene. ...