NVIDIA baru saja menjatuhkan makalah yang mungkin memecahkan trade-off terbesar dalam LLM. Kecepatan vs. Kualitas. Model regresif otomatis (seperti GPT) cerdas tetapi lambat - mereka menghasilkan satu token pada satu waktu, membuat sebagian besar GPU Anda diam. Model difusi cepat tetapi sering menghasilkan output yang tidak koheren. TiDAR membuat Anda berdua dalam satu umpan ke depan. Inilah bagian jeniusnya: GPU modern dapat memproses lebih banyak token daripada yang sebenarnya kita gunakan. TiDAR mengeksploitasi "slot gratis" ini dengan: 1. Menyusun beberapa token sekaligus menggunakan difusi (fase "berpikir") 2. Memverifikasinya menggunakan autoregresi (fase "berbicara") Keduanya terjadi secara bersamaan menggunakan masker perhatian pintar - dua arah untuk penyusunan, kausal untuk verifikasi. Hasilnya: ↳ 4,71x lebih cepat pada parameter 1,5B tanpa kehilangan kualitas ↳ Hampir 6x lebih cepat pada parameter 8B ↳ Arsitektur pertama yang mengungguli decoding spekulatif (EAGLE-3) ↳ Bekerja dengan caching KV standar, tidak seperti model difusi murni Trik pelatihannya juga cerdas - alih-alih menutupi token secara acak, mereka menutupi semuanya. Ini memberikan sinyal pembelajaran yang lebih kuat dan memungkinkan penyusunan satu langkah yang efisien. Jika Anda membangun agen AI real-time di mana latensi membunuh pengalaman, arsitektur ini patut diperhatikan. ...