Настільки неймовірно обґрунтований, що DeepSeek отримав нагороду за найкращу статтю на ACL разом з NSA, а потім, здається, був незадоволений результатами в масштабі, розробив кращу архітектуру, яка може використовувати моделі повної уваги на додачу, опублікував це і поділив ваги. Ми часто підозрюємо, що Google робить навпаки