DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Saya sangat mengutuk mencelupkan di Prime Intellect, mereka melakukan hal yang benar. Model basis Tiongkok pasca-pelatihan ke tingkat perbatasan sebenarnya *lebih penting* saat ini daripada belajar melatih basis kita sendiri. Saya pada dasarnya tidak peduli apa yang dapat dilatih sebelumnya oleh PI, Arcee, dan lainnya, meskipun saya memiliki harapan yang masuk akal bahwa mereka akan segera menyusul. Komputasi berlimpah di Barat dan kami sudah melihat bukti keahlian prapelatihan yang memadai dengan model yang lebih kecil (dua ini + @ZyphraAI, @Dorialexander, @natolambert dengan Olmo...) di ruang terbuka Barat; menurut semua akun itu berskala. Tapi itu sebagian besar dari... signifikansi geopolitik, dari apa yang akan diizinkan untuk dijalankan di server patriotik Anda yang dicolokkan ke kerangka kerja agen. Saya bukan orang Barat atau Cina, dan bertentangan dengan posting saya, saya tidak peduli dengan dimensi ini, ini adalah masalah instrumental murni. Konsultasikan bio: perlombaan bukan antara AS/Barat dan Cina, melainkan antara manusia dan AGI vs sentralisasi kekuasaan kera. Dan Prime Intellect melakukan lebih dari siapa pun untuk menghentikan dorongan sentralisasi. Pertimbangkan dan menangis: HF penuh dengan karunia Surgawi yang terlalu tidak kompeten untuk kita manfaatkan, mereka hanya membusuk di sana sampai menjadi usang. Ribuan hingga jutaan unduhan dan tidak ada yang bisa ditampilkan. Mengapa Qwen bahkan membuat model padat kuno seperti Llama yang sangat mahal? Sebagian besar karena a) Alibaba memiliki KPI "unduhan HF bulanan" dan b) akademisi dan laboratorium kecil tidak dapat mengetahui cara menyempurnakan arsitektur modern. Bahkan apakah infrastrukturnya lebih matang dan mereka kurang ngmi secara teknis, apa yang mereka sempurnakan? Puncak naratif penyempurnaan open source adalah Nous-Hermes, dan paradigma itu pada dasarnya hanya menyaring GPT-4, menyaring menurut "selera" dan kriteria yang tidak jelas, SFT di atas basis yang kuat, dan berharap yang terbaik. Sudut serangan itu dengan mencemooh diabaikan sebelumnya oleh OpenAI dkk sebagai jalan buntu yang tidak mengancam yang menghargai halusinasi dan peniruan gaya, dan itu dapat diprediksi gagal. Apa selanjutnya, «RL»? Apa RL, bagaimana RL, apa itu generator sinyal, bagaimana persinggungannya dengan tugas hilir? Kimi-K2, pangkalan tingkat perbatasan yang rapi, telah tersedia untuk semua orang selama berbulan-bulan. DeepSeek-V3, hampir setahun sekarang. V2, lebih dari setahun. Lusinan model dalam semua ukuran, diperbarui secara berkala dengan konteks yang lebih lama dan anugerah lainnya. Dan apa yang telah kita bangun dengan semua itu? Apa pun yang bahkan mendekati Instruksi internal Cina, apalagi perbatasan kontemporer? Halo? Bisakah Anda mengarahkan saya ke turunan ini? Ini adalah pencemaran lengkap dari gagasan sains terbuka. Dan bahkan orang Cina tidak repot-repot, mereka semua hanya melatih model mereka sendiri dari awal. Saya dapat memikirkan sejumlah kecil pengecualian (misalnya Rednote membuat DSV3-VL), tetapi tidak ada yang membuat percikan besar. Startup bernilai miliaran, yang paritnya adalah pengkodean pencarian atau agen dan dengan demikian kumpulan data pasca-pelatihan yang besar, secara diam-diam menggunakan DS / GLM / Qwen dalam produk milik mereka, tetapi mereka tidak berbagi alfa. Yaitu... tentang itu. Masuklah Prime Intellect. Mereka memecahkan pelatihan. Mereka memecahkan generasi lingkungan. Mereka berpikir dengan cara yang berprinsip tentang sinyal yang membentuk kognisi model umum. Mereka, pada dasarnya, membuka simpanan besar nilai lembam yang telah terakumulasi. Bagi dunia, ini jauh lebih dari sekadar model me-too lainnya. Mereka cerdas yang menakutkan, mereka memiliki niat baik, mereka memiliki peta jalan yang solid, dan mereka adalah teman-teman saya. Saya tidak akan mendukung pekerjaan mereka, karena itu melayani Tugas Umum yang Besar. Jika Anda tidak melihatnya, Anda tidak memiliki petunjuk tentang apa yang benar-benar penting pada tahap ini.

Teratas

Peringkat

Favorit