NVIDIA właśnie opublikowało dokument, który może rozwiązać największy dylemat w LLM-ach. Szybkość vs. Jakość. Modele autoregresywne (jak GPT) są inteligentne, ale wolne - generują jeden token na raz, pozostawiając większość twojego GPU bezczynne. Modele dyfuzyjne są szybkie, ale często produkują niespójne wyniki. TiDAR daje ci oba w jednym przejściu do przodu. Oto genialna część: Nowoczesne GPU mogą przetwarzać znacznie więcej tokenów, niż faktycznie używamy. TiDAR wykorzystuje te "wolne miejsca" poprzez: 1. Tworzenie wielu tokenów jednocześnie za pomocą dyfuzji (faza "myślenia") 2. Weryfikację ich za pomocą autoregresji (faza "mówienia") Obie te czynności odbywają się jednocześnie przy użyciu inteligentnych masek uwagi - dwukierunkowych do tworzenia, przyczynowych do weryfikacji. Wyniki: ↳ 4,71x szybsze przy 1,5B parametrów bez utraty jakości ↳ Prawie 6x szybsze przy 8B parametrów ↳ Pierwsza architektura, która przewyższa spekulacyjne dekodowanie (EAGLE-3) ↳ Działa z standardowym buforowaniem KV, w przeciwieństwie do czystych modeli dyfuzyjnych Sztuczka treningowa jest również sprytna - zamiast losowo maskować tokeny, maskują wszystko. To daje silniejsze sygnały do nauki i umożliwia efektywne tworzenie w jednym kroku. Jeśli budujesz agentów AI w czasie rzeczywistym, gdzie opóźnienie zabija doświadczenie, ta architektura zasługuje na uwagę. ...