Vay canına, yapay zeka bir belgeyi okurken ondan öğrenebilir mi? Astera Enstitüsü, NVIDIA ve diğerlerinden araştırmacılar, uzun bağlamlı modellemeyi sürekli öğrenme problemi olarak ele alan yeni bir yöntem sunuyorlar. Standart bir Transformer kullanıyorlar, ancak metni gerçek zamanlı olarak next-token tahminiyle "inceliyor" ve bağlamı kendi parametrelerine sıkıştırıyor. Uzun bağlamlara ölçeklendirmede Mamba 2 ve Gated DeltaNet gibi modelleri geride bırakırken, 128K girişte tam dikkatten 2.7 kat daha hızlı. Uzun Bağlam İçin Uçtan Uca Test Zamanı Eğitimi Makale: