Стань на коліна і прочитайте останню статтю Deepseek () Давайте візьмемо поверхневе розуміння, і всі виправлять те, що не так Це дослідження (mHC) фактично пропонує рішення для модернізації моделі «недороге, високоприбуткове» для індустрії ШІ. Ефект моделі: Суттєво покращує «здатність мислити» Розумніше: mHC суттєво підвищує обчислювальну потужність ШІ без зміни інфраструктури моделі. У тестах, що відображають логічне мислення та розуміння прочитаного, таких як BBH і DROP, продуктивність покращується на 2,1% до 2,3%. Це означає, що модель поводитиметься більше як «експерт», ніж як «повторювач» при роботі з такими завданнями, як складна бізнес-логіка, фінансовий аналіз тощо. Вартість навчання: Надзвичайно низькі втрати продуктивності в обмін на високу прибутковість Економічна доцільність: Хоча ця нова технологія збільшує ширину передачі інформації завдяки глибокій програмно-апаратній спільній оптимізації, часові витрати на реальне навчання великої моделі з 27 мільярдами параметрів зростають лише приблизно на 6,7%. Для інвесторів це означає обмін дуже невеликої кількості додаткової електроенергії та обчислювальної потужності на продуктивність моделі вищого порядку. Стабільність тренувань: Уникайте втрат активів, спричинених «крахом тренувань», і попрощайтеся з мертвими машинами: Хоча подібні спроби (наприклад, HC) також намагалися розширити інформаційний шлях, через відсутність обмежень великі моделі часто «божеволіють» або виходять з ладу (стрибки втрат) посеред навчання, що призводить до марнотратства цінних обчислювальних ресурсів. mHC використовує математичні «балансувальні закляття» (багатогранні обмеження), щоб забезпечити надзвичайну надійність моделі під час навчання, захищаючи дорогі інвестиції в обчислювальну потужність від системних крахів. Вимоги до пам'яті: Розумні рішення «апаратних вузьких місць» за допомогою алгоритмів Розумне використання пам'яті: ця технологія розширює «лінію» інформації у 4 рази, що теоретично споживатиме багато пам'яті. Але DeepSeek економить багато простору в пам'яті, витрачаючи трохи більше часу на обчислення, завдяки техніці, яка називається «вибірковий перерахунок». Це дозволяє існуючим висококласним відеокартам, таким як H100/H200, запускати цю складнішу архітектуру без збільшення апаратної вартості. Майбутній потенціал: Подолання традиційної верхньої межі «купових машин» Нові точки зростання: Раніше покращення ефектів моделей переважно базувалося на «даних купи» та «куповому GPU». mHC відкриває третій шлях: оптимізацію внутрішнього скелету моделі. Це доводить, що, покращуючи зв'язок між шарами, можна безперервно отримувати більше дивідендів продуктивності, навіть якщо розмір моделі не збільшується сліпо. Аналогія з точки зору інвесторів: якщо велика модель — це фабрика, то попереднє оновлення відбулося за рахунок збільшення кількості працівників (збільшення параметрів). mHC, навпаки, оптимізує конвеєрні конвеєри та логістичні канали заводу, не збільшуючи кількість робочих станцій. Вона не лише кілька разів розширює конвеєрну стрічку для транспортування більшої кількості деталей, а й гарантує, що завод не зупиняє виробництво через логістичні затори завдяки складній системі управління рухом. Кінцевим результатом є значне підвищення ефективності заводу, при цьому витрати на електроенергію та обслуговування обладнання залишаються практично незмінними.
«mHC не знижує фундаментально вимоги до пам'яті ШІ, але підвищує тиск пам'яті завдяки багатопотоковій конструкції» @rickawsb подивився на це, теоретично mHC потребує більше пам'яті
518