Zajímá vás, jak napsat jádra Blackwell matmul s výkonem SOTA pomocí MGPU? Právě jsme zveřejnili krátký návod krok za krokem: V každém kroku přesně ukážeme, jaké (malé) změny jsou nutné k upřesnění jádra a výsledné jádro má necelých 150 řádků.