Saya merasa lucu bagaimana penelitian DeepSeek sebagian besar diabaikan. Mereka menyeret industri, menendang dan berteriak, ke dunia MoE yang efisien dan RL yang efisien, tapi hanya itu. Mengapa belum semua perhatian penuh Instruksi DSA? Apakah metode Math-V2 diadopsi? Tidak. «Gimme bobot paus»
Ahmad
Ahmad10 Jan, 11.53
Tolong jatuhkan itu V4 Paus Segera
(Tentu saja saya juga ingin V4)
206