È fantastico vedere @AMD selezionare vLLM come uno dei framework di inferenza designati per il GPU MODE Hackathon. 🎉 La sfida: spingere le prestazioni di inferenza end-to-end di Kimi K2.5 1T FP4 su 8× AMD Instinct MI355X — utilizzando vLLM o AMD ATOM. Premio principale: $650.000. Cosa rende questo diverso: le ottimizzazioni vincenti devono essere integrabili in AMD ATOM o vLLM upstream. I miglioramenti che arrivano in vLLM beneficiano l'intera comunità. La Fase 1 (ottimizzazione del kernel) si svolge fino al 6 aprile. Ulteriori dettagli ⬇️