Поєднання NVIDIA DGX Spark + Apple M3 Ultra Mac Studio для 4-кратного швидшого висновку LLM за допомогою EXO. DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16) M3 Ultra Mac Studio: 512 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16) DGX Spark має ~4 FLOPS від M3 Ultra, але в 3 рази меншу пропускну здатність пам'яті. Ми змогли отримати 4-кратне збільшення продуктивності завдяки об'єднанню пристроїв та ретельному перекриттю обчислень і мережевого зв'язку (понад 10 GbE). Як? Висновок LLM складається з двох етапів: попереднього заповнення та декодування. Попереднє заповнення прив'язане до обчислень і стає швидшим із більшою кількістю FLOPS. Декодування обмежується пам'яттю і стає швидшим із більшою пропускною здатністю пам'яті. Запустивши пов'язане з обчисленнями попереднє заповнення на DGX Spark і декодування з прив'язкою до пам'яті на M3 Ultra, ми змогли досягти 4-кратного прискорення на попередньому заповненні порівняно лише з M3 Ultra Mac Studio та 3-кратне прискорення під час генерації порівняно з одним лише DGX Spark. Більше подробиць у дописі блогу нижче.