Jadi Anda memilih kematian
Untuk merespons pada tingkat objek @TheZvi Secara teknis, DSA mungkin merupakan lompatan besar yang membuat konteks skala Gemini menjadi murah sepele, bahkan untuk model generasi sebelumnya. Peringatan: - kami tidak yakin *apakah* itu berskala menjadi 1M+ (tetapi V3.2 exp≥V3.1 meskipun prapelatihan yang identik, dan V3.2>> exp, jadi sangat mungkin ya) - Kami tidak yakin bagaimana itu bisa dilatih tanpa bootstrapping dari perhatian padat. Mungkin DeepSeek tahu. Saya pikir V4 tidak akan menggunakan DSA, itu secara eksplisit disebut prototipe. Dalam kasus terburuk, juga masuk akal untuk melakukan pra-pelatihan dengan perhatian penuh => memperluas = > jarang, Anda makan lebih banyak biaya dalam prapelatihan untuk inferensi yang lebih murah secara permanen. - KDA Kimi atau GDN+ Qwen atau semacamnya mungkin lebih baik daripada DSA+/NSA+ Modulo peringatan ini, ini bukan pengurangan harga 2x, saya sarkastik. Lebih seperti 10x. Perhatian jarang yang tidak menurun adalah masalah yang cukup besar. Pada kecepatan, ini adalah titik kosong dari perspektif model. DeepSeek tidak tertarik untuk memberikan produk terbaik. Mereka melayani dengan batch besar dari H800s/Ascends. Anda dapat meletakkannya di perangkat keras Amerika dan mendapatkan 60-150 t/s, atau di Cerebras dan mendapatkan 1000 t/s seperti GLM, tanpa meledakkan biaya. Arsitektur ini pada dasarnya cepat (dangkal, perhatian murah), hanya saja DeepSeek melayaninya dengan lambat. Pada kecerdasan perbatasan, saya mengatakan bahwa keunggulan «usemaxing» dari perbatasan ini – pengkodean agen terutama, tetapi Anda dapat mencakup lebih banyak domain dengan cara yang sama – adalah produk dari pengeluaran komputasi pada langkah RL dan iterasi melalui lingkungan sintetis. Mereka punya resepnya. Mereka melaporkan ≈10% dari biaya prapelatihan yang dihabiskan untuk Speciale. Itu ≈$600K. Grok 4 dilaporkan menggunakan 100% Grok 3, atau puluhan ratus juta. Ini jelas sangat tidak efisien dengan Grok, tetapi saya pikir DeepSeek bisa mencapai 100% dengan mudah, resepnya sudah diketahui. Mereka mungkin tidak ingin menyia-nyiakannya pada basis yang sudah usang, karena mereka mencatat bahwa itu tetap kemacetan pengetahuan. Saya menemukan sikap gembira terhadap kinerja matematika kelas IMO (atau tanpa tembakan masalah Erdos ke tingkat yang dikatakan pemecah manusia «ya itu pada dasarnya solusi saya») lucu. Bukankah kita semua seharusnya mengharapkan AGI dari penelitian matematika independen. Atau hanya pengkodean sekarang. Secara sederhana, itu adalah kemampuan paling menarik untuk memperkirakan kecepatan lepas landas. Tapi apa pun, saya percaya pada lepas landas yang lambat, perbaikan diri akan mengalami masalah logistik di mana pun kita memulai. Kontribusi utama di sini, seperti yang telah saya katakan, adalah bahwa mereka mengumumkan keyakinan bahwa pada dasarnya mereka telah memecahkan LLM perbatasan pelatihan akhir 2025 sebagai program penelitian, dan dapat mencapai tingkat Barat saat ini atau melampaui itu hanya dengan menuangkan lebih banyak komputasi (ditambah penyesuaian kecil seputar efisiensi token). Secara teori, pengumuman mereka untuk memasuki pelatihan skala besar pada akhirnya dapat ditafsirkan sebagai «dan itulah yang kami lakukan sekarang». Tapi itu masih harus dilihat.
@TheZvi > meskipun prapelatihan yang identik dan pasca-pelatihan, koreksi
2,85K