Prime Intellect'te smaç yapmayı kesinlikle kınıyorum, onlar tam olarak doğru olanı yapıyorlar. Çin üs modellerini sınır seviyesine kadar eğitmek şu anda kendi üslerimizi önceden eğitmeyi öğrenmekten *daha önemli*. Temelde PI, Arcee ve diğerlerinin ne önceden eğitim alabileceği umurumda değil, ama yakında yetişeceklerine dair makul beklentilerim var. Batı'da hesaplama bolca ve Batı'nın açık alanında daha küçük modellerle (bu ikisi + @ZyphraAI, @Dorialexander, @natolambert Olmo ile...) yeterli ön eğitim uzmanlığına dair kanıtlar zaten görüyoruz; Her açıdan bu ölçek ölçülüyor. Ama bu çoğunlukla... Jeopolitik önemi, vatansever sunucularınızda ajanik çerçevelere bağlı olarak çalıştırabileceğiniz şeylerin jeopolitik önemi. Ben ne Batılı ne de Çinli değilim ve yazdığım aksine, bu boyut tamamen umurumda değil, tamamen arstümal bir mesele. Biyografiye bak: yarış ABD/Batı ile Çin arasında değil, insanlar ile AGI'ler ile maymun güç merkezileşmesi arasında. Ve Prime Intellect, merkeziyetleştirme isteğini durdurmak için herkesten daha fazlasını yapıyor. Düşünün ve ağlayın: HF, kullanamayacak kadar beceriksiz olduğumuz Göksel armağanlarla dolu, orada çürüyor ve modası geçmiş hale geliyor. Binlerce hatta milyonlarca indirme ve gösterecek hiçbir şey yok. Qwen neden zaten eski halde, çok pahalı, Lama benzeri yoğun modeller yapıyor? Çoğunlukla çünkü a) Alibaba'nın KPI'si "aylık HF indirmeleri" ve b) akademisyenler ve küçük laboratuvarlar modern mimarileri nasıl ince ayar edeceklerini çözemiyor. Altyapı daha olgun olsaydı ve teknik olarak daha az ngmi olsalar bile, bunu neler üzerinde ince ayarlar? Açık kaynak ince ayarının anlatı zirvesi Nous-Hermes idi ve bu paradigma temelde GPT-4'ü damıtmak, "zevk" ve belirsiz kriterlere göre filtrelemek, güçlü bir taban üzerinden SFT yapmak ve en iyisini ummaktı. Bu saldırı açısı OpenAI ve diğerleri tarafından önceden tehdit etmeyen bir çıkmaz sokak olarak küçümseyerek reddedildi ve tahmin edileceği gibi söndü. Sırada ne olacak, «RL»? Hangi RL, nasıl RL, sinyal üreteci nedir, aşağı akış görevleriyle nasıl kesişiyor? Kimi-K2, kusursuz bir sınır seviyesi üssü, aylardır herkese açık. DeepSeek-V3, neredeyse bir yıldır. V2, bir yıldan çok daha fazla. Her boyutta onlarca model, periyodik olarak daha uzun bağlam ve diğer avantajlarla güncelleniyor. Peki bunlarla ne inşa ettik? Çin iç Eğitim Sistemine yaklaşan bir şey var mı, günümüz sınırlarını bir kenara bırakın bile? Merhaba? Bu türevleri gösterebilir misiniz? Bu, açık bilim fikrinin tamamen kiyaslanmasıdır. Ve Çinliler bile zahmet etmiyor, hepsi kendi modellerini sıfırdan eğitiyor. Aklıma çok az istisna geliyor (örneğin Rednote'un DSV3-VL yapması), ama hiçbiri büyük bir ses çıkarmadı. Milyarlarca değerinde, arama veya ajanik kodlama olan ve dolayısıyla büyük eğitim sonrası veri setleri olan startuplar, özel ürünlerinde gizlice DS/GLM/Qwen kullanıyor, ancak alfa ortası paylaşmıyorlar. Yani... Hakkında. Başsal Zeka ortaya çıkıyor. Antrenmanları çözüyorlar. Çevre üretimini çözüyorlar. Genel model bilişini şekillendiren sinyaller hakkında ilkeli bir şekilde düşünüyorlar. Aslında, birikmiş muazzam etkisiz değer deposunu açıyorlar. Dünya için bu, başka bir benim de modelinden çok daha fazlası. Korkutucu derecede zekiler, iyi niyetleri var, sağlam bir yol haritası var ve benim arkadaşlarım. Onların işini küçümsemeye izin vermem, çünkü bu Büyük Ortak Görev'e hizmet eder. Eğer bunu görmüyorsan, bu aşamada gerçekten neyin önemli olduğunu bilmiyorsun.