NVIDIA, LLM'lerdeki en büyük tavizi çözebilecek bir makale yayınladı. Hız vs. Kalite. Otoregressiv modeller (GPT gibi) akıllı ama yavaştır - her seferinde bir token üretirler, GPU'nun çoğu boş kalır. Difüzyon modelleri hızlıdır ancak genellikle tutarsız çıktılar üretir. TiDAR ikinizi de tek bir ileri pasla alıyor. İşte dahiyane kısım: Modern GPU'lar, aslında kullandığımızdan çok daha fazla token işleyebilir. TiDAR bu "ücretsiz slotları" şu şekilde kullanıyor: 1. Birden fazla tokenı aynı anda difüzyon kullanarak ("düşünme" aşaması) taslak yapmak 2. Otomatik regresyon ("konuşma" aşaması) kullanarak doğrulamak Her ikisi de akıllı dikkat maskeleriyle aynı anda gerçekleşir - taslak için çift taraflı, doğrulama için nedensel. Sonuçlar: ↳ 1.5B parametrelerde sıfır kalite kaybı ile 4.71x daha hızlı ↳ 8B parametrelerde neredeyse 6 kat daha hızlı ↳ Spekülatif çözümlemeden üstün çıkan ilk mimari (EAGLE-3) ↳ Saf difüzyon modellerinden farklı olarak standart KV önbellekleme ile çalışır Eğitim numarası da zekice - tokenları rastgele maskelemek yerine, her şeyi maskeliyorlar. Bu, daha güçlü öğrenme sinyalleri verir ve verimli tek adımlı taslak yapmayı mümkün kılar. Gecikmenin deneyimi öldürdüğü gerçek zamanlı yapay zeka ajanları inşa ediyorsanız, bu mimariye dikkat etmeye değer. ...