Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Berlututlah dan baca artikel terbaru deepseek ()
Mari kita ambil pemahaman yang dangkal, dan semua orang akan memperbaiki apa yang salah
Studi ini (mHC) pada dasarnya memberikan solusi peningkatan model "berbiaya rendah, pengembalian tinggi" untuk industri AI.
Efek Model: Meningkatkan "Kemampuan Berpikir" Secara Signifikan Lebih Cerdas: mHC secara signifikan meningkatkan kekuatan pemrosesan AI tanpa mengubah infrastruktur model. Pada tes yang mencerminkan penalaran logis dan pemahaman bacaan, seperti BBH dan DROP, kinerja meningkat sebesar 2,1% hingga 2,3%. Ini berarti bahwa model akan berperilaku lebih seperti "ahli" daripada "repeater" ketika berhadapan dengan tugas-tugas seperti logika bisnis yang kompleks, analisis keuangan, dll.
Biaya pelatihan: Kehilangan kinerja yang sangat rendah dengan imbalan profitabilitas tinggi Hemat biaya: Meskipun teknologi baru ini meningkatkan lebar transmisi informasi, melalui pengoptimalan kolaboratif perangkat lunak dan perangkat keras yang mendalam, biaya waktu untuk benar-benar melatih model besar dengan 27 miliar parameter hanya meningkat sekitar 6,7%. Bagi investor, ini berarti menukar sejumlah kecil investasi listrik dan daya komputasi tambahan dengan kinerja model tingkat tinggi.
Stabilitas pelatihan: Hindari kehilangan aset yang disebabkan oleh "runtuhnya pelatihan" dan ucapkan selamat tinggal pada mesin mati: Meskipun upaya serupa (seperti HC) juga telah mencoba memperluas rute informasi, karena kurangnya kendala, model besar sering "menjadi gila" atau crash (Loss jumps) di tengah pelatihan, mengakibatkan pemborosan sumber daya komputasi yang berharga. mHC menggunakan "mantra penyeimbangan" matematis (kendala manifold) untuk memastikan bahwa model ini sangat kuat selama pelatihan, melindungi investasi daya komputasi yang mahal dari keruntuhan sistemik.
Persyaratan memori: Solusi cerdas untuk "kemacetan perangkat keras" melalui algoritma Penggunaan memori yang cerdas: Teknologi ini memperluas "jalur" informasi sebanyak 4 kali lipat, yang secara teoritis akan menghabiskan banyak memori. Tetapi DeepSeek menghemat banyak ruang memori dengan sedikit waktu komputasi ekstra melalui teknik yang disebut "perhitungan ulang selektif". Hal ini memungkinkan kartu grafis kelas atas yang ada seperti H100/H200 untuk menjalankan arsitektur yang lebih kompleks ini tanpa meningkatkan biaya perangkat keras.
Potensi masa depan: Menembus batas atas tradisional "mesin timbunan" Poin pertumbuhan baru: Sebelumnya, peningkatan efek model terutama bergantung pada "data tumpukan" dan "GPU tumpukan". mHC membuka jalur ketiga: mengoptimalkan kerangka internal model. Ini membuktikan bahwa dengan meningkatkan koneksi antar lapisan, lebih banyak dividen kinerja dapat terus diperas bahkan jika ukuran model tidak ditingkatkan secara membabi buta.
Analogi dari perspektif investor: Jika model besar adalah pabrik, maka peningkatan sebelumnya adalah dengan meningkatkan jumlah pekerja (meningkatkan parameter). mHC, di sisi lain, merampingkan kembali jalur perakitan pabrik dan saluran logistik tanpa menambah jumlah workstation. Tidak hanya memperlebar sabuk konveyor beberapa kali untuk mengangkut lebih banyak suku cadang, tetapi juga memastikan bahwa pabrik tidak menghentikan produksi karena kemacetan logistik melalui sistem manajemen lalu lintas yang canggih. Hasil akhirnya adalah peningkatan efisiensi pabrik yang signifikan, sementara biaya pemeliharaan listrik dan peralatan Anda hampir tidak berubah.

"mHC tidak secara fundamental mengurangi kebutuhan memori AI, tetapi meningkatkan tekanan memori karena desain multi-alirannya"
@rickawsb melihat mHC ini secara teoritis membutuhkan lebih banyak memori
512
Teratas
Peringkat
Favorit
