🚨 BREAKING: DeepSeek щойно випустила фундаментальне покращення архітектури Transformer Генеральний директор Веньфен Лян у списку авторів КИТ ПОВЕРНУВСЯ 🐋
У статті «mHC: Багатообразно-обмежені гіперзв'язки» пропонується фреймворк для покращення гіперзв'язків у трансформерах. Він використовує проєкції многовидів для відновлення ідентичного відображення, вирішення нестабільності тренувань, обмежень масштабованості та накладних витрат пам'яті. Ключові переваги включають покращення продуктивності та ефективності у великих моделях, як показано в експериментах.
84