DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Dustin Tran

Ilmuwan Riset di Google DeepMind. Saya mengerjakan Gemini.

Saya meninggalkan Google DeepMind setelah 8 tahun. Begitu banyak kenangan indah — dari makalah dasar awal di Google Brain (dengan @noamshazeer @ashvaswani @lukaszkaiser Image Transformer, Tensor2Tensor, Mesh TensorFlow) untuk memimpin evaluasi pascapelatihan Gemini untuk mengejar ketinggalan & diluncurkan dalam 100 hari, kemudian memimpin tim untuk melompat ke LMArena # 1 (dan tinggal di sana selama lebih dari setahun!), dan akhirnya mengerjakan inovasi penalaran yang luar biasa untuk medali emas IMO & ICPC Gemini (dengan @HengTze @quocleix). Gemini telah menjadi perjalanan liar dari satu paradigma ke paradigma lainnya: pertama, mengubah model LaMDA kami (chatbot seperti instruksi pertama!) dari chatbot yang sebenarnya menjadi respons panjang yang penuh konten dengan RLHF; kemudian, penalaran dan pemikiran mendalam dengan berlatih melalui rantai berpikir yang panjang, lingkungan baru, dan kepala penghargaan. Ketika kami pertama kali memulai, sentimen publik buruk. Semua orang mengira Google ditakdirkan untuk gagal karena warisan pencarian dan politik organisasinya. Sekarang, Gemini secara konsisten #1 dalam preferensi pengguna dan mempelopori pencapaian ilmiah baru, dan semua orang berpikir bahwa kemenangan Google sudah jelas. 😂 (Dulu juga OpenAI akan melompati siklus berita AI dengan mengumumkan di hadapan kami dari backlog ide untuk setiap rilis Google baru; aman untuk mengatakan bahwa backlog kosong.) Sejak itu saya bergabung dengan xAI. Resepnya terkenal. Komputasi, data, dan O(100) orang-orang yang brilian dan pekerja keras adalah semua yang dibutuhkan untuk mendapatkan LLM tingkat perbatasan. xAI *benar-benar* percaya pada hal ini. Untuk komputasi, bahkan di Google saya belum pernah mengalami # chip per kapita ini (& 100K + GB200 / 300K masuk dengan Colossus 2). Untuk data, Grok 4 membuat taruhan terbesar dalam menskalakan RL & posttraining. xAI membuat taruhan baru untuk menskalakan data, pemikiran mendalam, dan resep pelatihan. Dan timnya cepat. Tidak ada perusahaan yang mencapai posisi xAI saat ini dalam kemampuan AI dalam waktu singkat. Seperti yang @elonmusk katakan, derivatif orde pertama dan kedua perusahaan adalah yang paling penting: akselerasi xAI adalah yang tertinggi. Saya dengan senang hati mengumumkan bahwa dalam beberapa minggu pertama saya, kami meluncurkan Grok 4 Fast. Grok 4 adalah model penalaran yang luar biasa, masih menjadi yang teratas di ARC-AGI dan tolok ukur baru seperti FinSearchComp. Tapi itu lambat dan tidak pernah benar-benar ditargetkan untuk kebutuhan pengguna tujuan umum. Grok 4 Fast adalah model kelas mini terbaik—di LMArena, itu adalah #8 (Gemini 2.5 Flash adalah #18!), dan pada penalaran inti seperti AIME, itu setara dengan Grok 4 sementara 15x lebih murah. S / o ke @LiTianleli @jinyilll @ag_i_2211 @s_tworkowski @keirp1 @yuhu_ai_

Teratas

Peringkat

Favorit