Ви могли б зробити висновок ШІ у 3 рази швидшим без додаткового тренування. Дослідники з SJTU та Huawei пропонують LoPA саме для цього! Їхній новий метод «Lookahead Parallel Decoding» — це прийом plug-and-play. Він розумно передбачає найкращий порядок для одночасного створення кількох токенів, замість того, щоб розблокувати масштабні паралельні обчислення. Він посилює модель D2F-Dream, виводячи 10+ токенів на крок, досягаючи понад 1070 токенів на секунду — значно перевершуючи інші топові системи висновку на програмних (MBPP) та математичних (GSM8K) бенчмарках. LoPA: масштабування dLLM Inference за допомогою паралельного декодування Lookahead Стаття: Код: Блог: Наш звіт: 📬 #PapersAccepted від Jiqizhixin