Вы можете сделать выводы ИИ в 3 раза быстрее без дополнительного обучения. Исследователи из SJTU и Huawei представляют LoPA именно для этого! Их новый метод "Lookahead Parallel Decoding" — это трюк, который легко подключить и использовать. Он умно предсказывает лучший порядок для генерации нескольких токенов одновременно, а не по одному, открывая огромные возможности для параллельных вычислений. Он значительно ускоряет модель D2F-Dream, позволяя выводить более 10 токенов за шаг, достигая более 1070 токенов в секунду — значительно превосходя другие ведущие системы вывода по кодированию (MBPP) и математике (GSM8K). LoPA: Масштабирование вывода dLLM через Lookahead Parallel Decoding Статья: Код: Блог: Наш отчет: 📬 #PapersAccepted от Jiqizhixin