Tan increíblemente basado que DeepSeek ganó el premio al mejor artículo en ACL con la NSA, y luego, al parecer, quedó insatisfecho con los resultados a gran escala, ideó una mejor arquitectura que pudiera usar modelos de atención completa, publicó eso y compartió pesos. A menudo sospechamos que Google hace lo contrario