Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA właśnie opublikowało dokument, który może rozwiązać największy dylemat w LLM-ach.
Szybkość vs. Jakość.
Modele autoregresywne (jak GPT) są inteligentne, ale wolne - generują jeden token na raz, pozostawiając większość twojego GPU bezczynne.
Modele dyfuzyjne są szybkie, ale często produkują niespójne wyniki.
TiDAR daje ci oba w jednym przejściu do przodu.
Oto genialna część:
Nowoczesne GPU mogą przetwarzać znacznie więcej tokenów, niż faktycznie używamy. TiDAR wykorzystuje te "wolne miejsca" poprzez:
1. Tworzenie wielu tokenów jednocześnie za pomocą dyfuzji (faza "myślenia")
2. Weryfikację ich za pomocą autoregresji (faza "mówienia")
Obie te czynności odbywają się jednocześnie przy użyciu inteligentnych masek uwagi - dwukierunkowych do tworzenia, przyczynowych do weryfikacji.
Wyniki:
↳ 4,71x szybsze przy 1,5B parametrów bez utraty jakości
↳ Prawie 6x szybsze przy 8B parametrów
↳ Pierwsza architektura, która przewyższa spekulacyjne dekodowanie (EAGLE-3)
↳ Działa z standardowym buforowaniem KV, w przeciwieństwie do czystych modeli dyfuzyjnych
Sztuczka treningowa jest również sprytna - zamiast losowo maskować tokeny, maskują wszystko. To daje silniejsze sygnały do nauki i umożliwia efektywne tworzenie w jednym kroku.
Jeśli budujesz agentów AI w czasie rzeczywistym, gdzie opóźnienie zabija doświadczenie, ta architektura zasługuje na uwagę.
...

Najlepsze
Ranking
Ulubione

