(1/6) GPU sítě jsou zbývajícím úzkým hrdlem pro efektivitu AI a základní hardware se rychle mění! S radostí vydáváme ParallelKittens, aktualizaci ThunderKittens, která vám umožní snadno psát rychlé výpočtově komunikující multi-GPU jádra, spolu s novými jádry pro data, tenzory, sekvence a expertní paralelismus! Tady je fotka překrývajících se koťat, spolu s věcmi, na které byste měli dávat pozor při optimalizaci jader s více GPU. (S @simran_s_arora, @bfspector a @hazyresearch. Velkoryse podpořeno @cursor_ai a @togethercompute)