Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Diz çökün ve deepseek'in en son makalesini okuyun ()
Yüzeysel bir anlayış alalım, herkes yanlışlığı düzeltecek
Bu çalışma (mHC), esasen yapay zeka endüstrisi için "düşük maliyetli, yüksek getiri" model yükseltme çözümü sunmaktadır.
Model Etkisi: "Düşünme Yeteneğini" Önemli Ölçüde Artırır Daha Akıllı: mHC, model altyapısını değiştirmeden yapay zekanın işlem gücünü önemli ölçüde artırır. Mantıksal akıl yürütme ve okuma anlama yeteneğini yansıtan testlerde, örneğin BBH ve DROP'ta, performans %2,1 ile %2,3 oranında iyileşti. Bu, modelin karmaşık iş mantığı, finansal analiz gibi görevlerde "tekrarlayıcı" yerine "uzman" gibi davranacağı anlamına gelir.
Eğitim maliyeti: Yüksek kârlılık karşılığında son derece düşük performans kaybı Maliyet etkin: Bu yeni teknoloji, derin yazılım ve donanım işbirliğiyle optimize ederek bilgi iletim genişliğini artırsa da, 27 milyar parametreli büyük bir modeli gerçekten eğitmenin zaman maliyeti sadece yaklaşık %6,7 oranında artıyor. Yatırımcılar için bu, çok az miktarda ek elektrik ve hesaplama gücü yatırımının daha yüksek bir model performansıyla takas edilmesi anlamına gelir.
Eğitim kararlılığı: "Eğitim çöküşü" nedeniyle oluşan varlık kayıplarından kaçının ve ölü makinelere veda edin: Benzer girişimler (örneğin HC) bilgi yolunu genişletmeye çalışsa da, kısıtlamaların olmaması nedeniyle büyük modeller genellikle "çıldırıyor" veya çöker (kayıp sıçramaları) ve değerli hesaplama kaynaklarının israfına yol açar. mHC, modelin eğitim sırasında son derece sağlam olmasını sağlamak için matematiksel "dengeleme büyüleri" (manifold kısıtlamaları) kullanır ve pahalı hesaplama gücü yatırımlarını sistemik çöküşlerden korur.
Bellek gereksinimleri: Algoritmalar aracılığıyla "donanım darboğazlarına" akıllıca çözümler Akıllı bellek kullanımı: Bu teknoloji, teorik olarak çok fazla bellek tüketecek olan bilgi "şeridini" 4 kat genişletir. Ancak DeepSeek, "seçici yeniden hesaplama" adı verilen bir teknikle biraz ekstra hesaplama süresiyle çok fazla bellek alanı tasarrufu sağlıyor. Bu, H100/H200 gibi mevcut üst düzey grafik kartlarının, donanım maliyetlerini artırmadan bu daha karmaşık mimariyi çalıştırmasını sağlar.
Gelecek potansiyeli: "yığın makinelerin" geleneksel üst sınırını aşmak Yeni büyüme noktaları: Daha önce, geliştirilmiş model etkileri esas olarak "yığın verisi" ve "yığın GPU"ya dayanıyordu. mHC üçüncü bir yolu açar: modelin iç iskeletini optimize etmek. Bu, katmanlar arasındaki bağlantıyı iyileştirerek, model boyutu körü körüne artmasa bile sürekli olarak daha fazla performans payı elde edilebileceğini kanıtlıyor.
Yatırımcıların bakış açısından benzetme: Büyük model bir fabrikaysa, önceki yükseltme işçi sayısını artırarak (parametreleri artırarak) yapılmış. mHC ise fabrikanın montaj hatlarını ve lojistik kanallarını iş istasyonu sayısını artırmadan yeniden düzenliyor. Konveyör bandını birkaç kez genişleterek daha fazla parça taşımak değil, aynı zamanda fabrikanın lojistik sıkışıklık nedeniyle üretimi durdurmamasını da gelişmiş bir trafik yönetim sistemi sayesinde sağlar. Sonuç olarak, tesis verimliliğinde önemli bir artış olurken, elektrik ve ekipman bakım maliyetleriniz neredeyse hiç değişmeden kalır.

"mHC, yapay zekanın bellek gereksinimlerini temelde azaltmaz, ancak çok akışlı tasarımı sayesinde bellek baskısını artırır"
@rickawsb buna baktığım, mHC teorik olarak daha fazla hafıza ihtiyaç duyuyor
516
En İyiler
Sıralama
Takip Listesi
