Cieszymy się, że @AMD wybrało vLLM jako jeden z wyznaczonych frameworków do wnioskowania na Hackathonie GPU MODE. 🎉 Wyzwanie: zwiększyć wydajność wnioskowania end-to-end Kimi K2.5 1T FP4 na 8× AMD Instinct MI355X — używając vLLM lub AMD ATOM. Główna nagroda: 650 000 USD. Co czyni to wyjątkowym: zwycięskie optymalizacje muszą być możliwe do scalania z AMD ATOM lub vLLM upstream. Ulepszenia, które trafią do vLLM, przynoszą korzyści całej społeczności. Faza 1 (optymalizacja jądra) trwa do 6 kwietnia. Więcej szczegółów ⬇️