Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 mungkin pertama kalinya artefak yang tepat mendapat tiga laporan teknologi yang berbeda – asli, artikel *Alam*, dan revisi penuh. Banyak teknik yang dijelaskan di sini, infra, petunjuk... Tapi pemenang terbesar? @TheZvi! Mereka sebenarnya menyadari bahwa keselamatan adalah sesuatu.


7 Jan, 15.39
Makalah DeepSeek-R1 diperbarui 2 hari yang lalu, diperluas dari 22 halaman menjadi 86 halaman dan menambahkan sejumlah besar detail.
Konten baru mencakup topik-topik seperti evolusi diri DeepSeek-R1-Zero, evaluasi DeepSeek-R1, analisis lebih lanjut, dan distilasi DeepSeek-R1.
DeepSeek-R1: Memberi Insentif Kemampuan Penalaran di LLM melalui Pembelajaran Penguatan
Kertas:


Pada 31 Januari, @EpochAIResearch membuat perkiraan biaya RL yang masuk ke R1. Sejak makalah Alam, kami tahu itu adalah 3x dari total anggaran. Salah bagaimana tepatnya?
- Batch yang Diasumsikan = 1024 & Ukuran grup = 64, seperti di DeepSeekMath. Sungguh: B=512, G=16.
- hanya 1700 langkah untuk R1.


@EpochAIResearch ofc @EgeErdil2 dikalibrasi dengan baik dan berhati-hati secara epistemik sehingga dia tahu persis apa yang mungkin terjadi

@EpochAIResearch @EgeErdil2 saya pikir apa yang dilakukan Ege adalah meremehkan bahwa mereka sangat jelas bahwa itu tidak berhasil pada model kecil (mereka membagikan lebih banyak detail sekarang; r1-lite-preview mungkin Qwen2.5-32B). Ergo V3 jauh lebih efisien dalam sampel.
Meta level sebelumnya lebih menarik. Apakah mereka tertinggal?


865
Teratas
Peringkat
Favorit
