NVIDIA nám poslala 2 DGX Sparky. Chvíli jsme přemýšleli, co s nimi budeme dělat. Šířka pásma paměti je 273 GB/s, takže je 3x pomalejší než M3 Ultra (819 GB/s) pro odvození batch_size=1. Má však 4x více FLOPS (100 TFLOPS oproti 26 TFLOPS). Tak jsme si řekli, co kdybychom mohli zkombinovat DGX Spark a M3 Ultra a využít jak masivní výpočetní výkon na DGX Sparku, tak obrovskou šířku pásma paměti na M3 Ultra. Přišli jsme na způsob, jak rozdělit inferenci mezi obě zařízení a dosáhnout až 4x zrychlení dlouhých výzev ve srovnání se samotnou M3 Ultra. Veškeré podrobnosti najdete v příspěvku na blogu, na který odkazujeme níže.