DeepSeek R1, tam olarak gelen artefaktın üç farklı teknoloji raporu aldığı ilk sefer olabilir – orijinal, *Nature* makalesi ve tam bir revizyon. Burada birçok teknik açıklandı, infra, promptlar... Ama en büyük kazanan? @TheZvi! Aslında güvenliğin bir şey olduğunun farkındalar.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 Oca 15:39
DeepSeek-R1'in makalesi 2 gün önce güncellendi, 22 sayfadan 86 sayfaya genişletildi ve önemli miktarda detay eklendi. Yeni içerik, DeepSeek-R1-Zero'nun kendi evrimi, DeepSeek-R1'in değerlendirilmesi, daha fazla analiz ve DeepSeek-R1 damıtılması gibi konuları kapsamaktadır. DeepSeek-R1: LLM'lerde Güçlendirme Öğrenme Yoluyla Akıl Yürütme Yeteneğini Teşvik Etmek Makale:
31 Ocak'ta @EpochAIResearch, RL'nin R1'e giren maliyetleri için bir tahmin yaptı. Nature gazetesinden beri bunun toplam bütçenin 3 katı olduğunu biliyorduk. Yanlış nasıl tam olarak? - Varsayılan Parti = 1024 & Grup boyutu = 64, DeepSeekMath'te olduğu gibi. Gerçekten: B=512, G=16. - R1 için sadece 1700 basamak.
@EpochAIResearch tabii ki @EgeErdil2 iyi kalibre edilmiş ve epistemik olarak dikkatli, bu yüzden ne olacağını tam olarak biliyordu
@EpochAIResearch @EgeErdil2 bence Ege'nin yanlış yaptığı şey, küçük modellerde başarılı olmadığını çok net olarak gördüklerini hafife almaktı (şimdi daha fazla detay paylaşıyorlar; r1-lite-preview muhtemelen Qwen2.5-32B idi). Ergo V3 çok daha örnek vericiydi. Önceki meta seviye daha ilginç. Geride miydiler?
814