DeepSeek зламав вузьке місце уваги O(L²). Їхня нова модель V3.2 вводить DeepSeek Sparse Attention (DSA), і це єдина архітектурна зміна, яку вони внесли. Це показує, наскільки це важливо. Що вона вирішує: Стандартна увага масштабується квадратично. Подвоїть довжину контексту, збільшуйте обчислення в чотири рази. Ось чому довгоконтекстні висновки швидко стають дорогими. DSA знижує складність з O(L²) до O(Lk), де k фіксовано. Як це працює: Легкий Lightning Indexer оцінює, які токени дійсно важливі для кожного запиту. Невелика кількість головок, працює у FP8, обчислювально дешево. Тоді механізм вибору отримує лише верхні k записів значення ключа. Головний висновок: на кожен запит вибирається лише 2 048 токенів, незалежно від довжини контексту. Дорогі обчислення уваги відбуваються на цій невеликій підмножині, а не на повній послідовності 128K. Менше уваги — кращі результати. DeepSeek V3.2 щойно це довела. Результати: При контексті 128K вартість попереднього заповнення знижується з ~$0.65 до ~$0.35 за мільйон токенів. Декодування падає з ~$2.4 до ~$0.8. А продуктивність? Залишається незмінним. У деяких довгоконтекстних бенчмарках V3.2 насправді отримує вищі бали. Обмежена увага — не новина. Зробити так, щоб це працювало, не втрачаючи якість, важко. DeepSeek вирішив це за допомогою двоетапного навчального процесу: спочатку вирівнював індексатор за допомогою KL-дивергенції, а потім навчав повну модель адаптуватися до розріджених патернів. Ось так масштабуєш контекст без масштабування витрат. ...