LLM'lerin böyle çalışacağını hep böyle tahmin ettim çünkü ben (ve muhtemelen çoğu başkası) böyle düşünüyorum Sanırım temel düşünce birimi bu gestalt düşünce vektörü olayı olması, "kelimeler" değil ve hepimiz bunları kelimelere çevirmenin çok hızlı bir yolunu geliştirdik çünkü kelimeler düşünce parçalarından daha iletilebilir "Bazı insanların iç monoloğu olmaz!" söylemiyle ilgili sorunum hep buydu Kelimelerin insanların düşündüğün temel birim olması mantıklı değil. Görüntüler veya bu düşünce yazıları gibi şeylerle düşünmek yaklaşık 1000 kat daha hızlı Sanırım insanlar sadece kelimelerle düşünüyor gibi görünüyor çünkü düşüncelerini anlattıklarında, düşünce parçalarını kelimelere çevirmeleri gerekiyor - çünkü biz böyle iletişim kuruyoruz - ve bu süreç gerçek düşüncelerini monolog biçimine dönüştürüyor Ama sadece bir tür iletişim çıkarmanız gerektiğinde kelimelerle düşünmek mantıklı olur. Aksi takdirde çok verimli değildir Ve insan beyinleri inanılmaz derecede verimli
Simplifying AI
Simplifying AI23 Mar 00:54
🚨 BREAKING: Tencent "next-token" paradigmasını yok etti. Tencent ve Tsinghua, CALM'ı (Sürekli Otoregressiv Dil Modelleri) yayımladı ve bu bir sonraki token paradigmasını tamamen alt üst ediyor. LLM'ler şu anda devasa bir kelime dağarcığı softmax katmanı üzerinden ayrık, tek tokenları tahmin etmek için büyük miktarda hesaplama harcıyor. Yavaş ve kötü ölçekleniyor. CALM kelime dağarcığını tamamen atlar. Yüksek hassasiyetli bir otomatik kodlayıcı kullanarak metin parçalarını %99,9 doğrulukla tek bir sürekli vektöre sıkıştırır. Model artık sürekli bir uzayda "bir sonraki vektör"ü tahmin ediyor. Rakamlar gerçekten çıldırmaz: - Her üretken adım artık anlamsal bant genişliğinin 4× taşır. - Eğitim hesaplaması %44 azalmıştır. - Softmax darboğazı tamamen kaldırılmıştır. Dil modellerinin ayrık semboller yazmaktan sürekli düşünceleri akıma evrimleştiğini gerçekten izliyoruz. Bu, yapay zekanın tüm gidişatını değiştirir.
Bu arada, burada tarif edilen mekanizma hakkında yorum yapıyorum, Tencent ya da başka bir şeyin gerçek teknolojisi değil Vektörlerden tokenlara geçişin uzun süre oldukça yavaş ve verimsiz olacağını varsayıyorum ve bunun kısa vadede yapay zekayı ya da herhangi bir şeyi DEVRIM OLARAK şekillendireceğini sanmıyorum
282