Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Поєднання NVIDIA DGX Spark + Apple M3 Ultra Mac Studio для 4-кратного швидшого висновку LLM за допомогою EXO.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16)
M3 Ultra Mac Studio: 512 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16)
DGX Spark має ~4 FLOPS від M3 Ultra, але в 3 рази меншу пропускну здатність пам'яті.
Ми змогли отримати 4-кратне збільшення продуктивності завдяки об'єднанню пристроїв та ретельному перекриттю обчислень і мережевого зв'язку (понад 10 GbE). Як?
Висновок LLM складається з двох етапів: попереднього заповнення та декодування.
Попереднє заповнення прив'язане до обчислень і стає швидшим із більшою кількістю FLOPS.
Декодування обмежується пам'яттю і стає швидшим із більшою пропускною здатністю пам'яті.
Запустивши пов'язане з обчисленнями попереднє заповнення на DGX Spark і декодування з прив'язкою до пам'яті на M3 Ultra, ми змогли досягти 4-кратного прискорення на попередньому заповненні порівняно лише з M3 Ultra Mac Studio та 3-кратне прискорення під час генерації порівняно з одним лише DGX Spark.
Більше подробиць у дописі блогу нижче.

Найкращі
Рейтинг
Вибране

