DApp Store | Pusat Web3 untuk Event & Game

Topik trending

DeepSeek R1 mungkin pertama kalinya artefak yang tepat mendapat tiga laporan teknologi yang berbeda – asli, artikel *Alam*, dan revisi penuh. Banyak teknik yang dijelaskan di sini, infra, petunjuk... Tapi pemenang terbesar? @TheZvi! Mereka sebenarnya menyadari bahwa keselamatan adalah sesuatu.

Pada 31 Januari, @EpochAIResearch membuat perkiraan biaya RL yang masuk ke R1. Sejak makalah Alam, kami tahu itu adalah 3x dari total anggaran. Salah bagaimana tepatnya? - Batch yang Diasumsikan = 1024 & Ukuran grup = 64, seperti di DeepSeekMath. Sungguh: B=512, G=16. - hanya 1700 langkah untuk R1.

@EpochAIResearch ofc @EgeErdil2 dikalibrasi dengan baik dan berhati-hati secara epistemik sehingga dia tahu persis apa yang mungkin terjadi

@EpochAIResearch @EgeErdil2 saya pikir apa yang dilakukan Ege adalah meremehkan bahwa mereka sangat jelas bahwa itu tidak berhasil pada model kecil (mereka membagikan lebih banyak detail sekarang; r1-lite-preview mungkin Qwen2.5-32B). Ergo V3 jauh lebih efisien dalam sampel. Meta level sebelumnya lebih menarik. Apakah mereka tertinggal?

865

Teratas

Peringkat

Favorit