Bilimsel dünya modellerini ölçeklendirmek, mimarilerin, eğitim hedeflerinin ve sayısal unsurların birlikte tasarlanmasını gerektirir. Bugün, NVIDIA'nın NVFP4 kararlı 4-bit eğitim tarifiyle başlayan düşük hassasiyetli ön eğitim serimizin ilk yazılarını paylaşıyoruz.
Bölüm 1:
Bölüm 2:
Kayan nokta temellerini, sezgisel sistemleri, özel CUDA çekirdeklerini ve stabilizasyon tekniklerini ele alıyoruz. Gelecek girişler, hibrit mimariler üzerine özel tarifler ve sonuçlar içerecek.
Sürgülü pencere dikkati (SWA), verimlilik için sınır hibrit modellerine güç veriyor. Daha iyi bir şey var mı?
Kayar pencere dikkati (SWA) için daha hızlı ve daha kaliteli bir yedek parça olan Phalanx'ı tanıtıyoruz.
Phalanx, veri yerelliğine ve doğrudan GPU'larla eşlenen pürüzlü, blok hizalı pencerelere odaklanarak tasarlanmış yeni bir donanım ve sayıya duyarlı pencereli katmanlar ailesidir.
Eğitimde Phalanx, maliyetli çarpıtmalar arası iletişimi azaltarak optimize edilmiş SWA hibritleri ve Transformatörlere göre 4K–32K bağlam uzunluklarında %10–40 daha yüksek uçtan uca verim sağlar.
Bugün, hem teknik raporu, bir blogu hem de araştırma çekirdeği kitaplığımız olan Spear'daki Phalanx çekirdeklerini yayınlıyoruz.
İşe alıyoruz.
Bugüne kadarki en güçlü temel yayılma dili modeli (DLM) olan RND1 ile tanışın.
RND1 (Radikal Sayısal Difüzyon), seyrek MoE mimarisine sahip 30B parametreli (3B aktif) deneysel bir DLM'dir.
DLM çıkarımı ve eğitim sonrası hakkında daha fazla araştırmayı katalize etmek için ağırlıkları, eğitim ayrıntılarını ve kodu yayınlayarak açık kaynak haline getiriyoruz.
Bizler, özyinelemeli kişisel gelişim (RSI) için motoru inşa eden ve bunu kendi işimizi hızlandırmak için kullanan araştırmacılar ve mühendisleriz (DeepMind, Meta, Liquid, Stanford). Amacımız yapay zekanın yapay zekayı tasarlamasına izin vermek.
İşe alıyoruz.