DeepSeek R1 mungkin pertama kalinya artefak yang tepat mendapat tiga laporan teknologi yang berbeda – asli, artikel *Alam*, dan revisi penuh. Banyak teknik yang dijelaskan di sini, infra, petunjuk... Tapi pemenang terbesar? @TheZvi! Mereka sebenarnya menyadari bahwa keselamatan adalah sesuatu.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 Jan, 15.39
Makalah DeepSeek-R1 diperbarui 2 hari yang lalu, diperluas dari 22 halaman menjadi 86 halaman dan menambahkan sejumlah besar detail. Konten baru mencakup topik-topik seperti evolusi diri DeepSeek-R1-Zero, evaluasi DeepSeek-R1, analisis lebih lanjut, dan distilasi DeepSeek-R1. DeepSeek-R1: Memberi Insentif Kemampuan Penalaran di LLM melalui Pembelajaran Penguatan Kertas:
Pada 31 Januari, @EpochAIResearch membuat perkiraan biaya RL yang masuk ke R1. Sejak makalah Alam, kami tahu itu adalah 3x dari total anggaran. Salah bagaimana tepatnya? - Batch yang Diasumsikan = 1024 & Ukuran grup = 64, seperti di DeepSeekMath. Sungguh: B=512, G=16. - hanya 1700 langkah untuk R1.
@EpochAIResearch ofc @EgeErdil2 dikalibrasi dengan baik dan berhati-hati secara epistemik sehingga dia tahu persis apa yang mungkin terjadi
@EpochAIResearch @EgeErdil2 saya pikir apa yang dilakukan Ege adalah meremehkan bahwa mereka sangat jelas bahwa itu tidak berhasil pada model kecil (mereka membagikan lebih banyak detail sekarang; r1-lite-preview mungkin Qwen2.5-32B). Ergo V3 jauh lebih efisien dalam sampel. Meta level sebelumnya lebih menarik. Apakah mereka tertinggal?
865