Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Seorang pembuat kode, pengendara sepeda jalan, peramal server, pengumpul sampah elektronik, salah satu pendiri KCORES, mantan direktur di IllaSoft, KingsoftOffice, Juejin.
Peningkatannya jelas! Qwen3-Max Versi Resmi vs Tes Versi Pratinjau!
Sudah 3 bulan sejak rilis Qwen3-Max-ThinkingPreview, dan versi resminya akhirnya hadir! Seberapa besar dorongan ini? Berikan Anda hasil tes secara langsung!
Tes kemampuan pemrograman: Peningkatan epik uji ledakan rantai petasan, versi pratinjau sebelumnya tidak dapat dirantai sama sekali, sekarang tidak hanya dapat dirantai, efeknya cukup bagus; Pemodelan uji labu berbentuk kerucut pasta gigi gajah telah meningkat secara signifikan, dan bahkan ada animasi penurunan cair, tetapi masih ada beberapa masalah dengan animasi partikel. Gerakan tourbillon berubah dari belum selesai menjadi dimodelkan dengan lancar; Elastisitas partikel dan deteksi tabrakan cangkir Python yang menuangkan air telah diperbaiki.
Kali ini, tes estetika telah ditambahkan: penggunaan deskripsi teks untuk mengembalikan karya seni modern p5.js, efeknya baik-baik saja, tetapi kemampuan pemahaman spasial masih tertunda, dan garis horizontal jendela kecil tidak sejajar.
Tes kemampuan agen: Kinerja luar biasa dalam konteks 60K, diperkirakan mencapai level SOTA 500 poin, tetapi setelah 60K, kinerjanya turun tajam dan akan ada masalah dengan perulangan tugas atau alat lupa.
Kapasitas penarikan mendekati 70%, tetapi ada fenomena aneh - semakin pendek konteksnya, semakin buruk penarikannya, tidak jelas apa masalahnya, saya telah melaporkannya kepada pejabat.
Ringkasan: Versi resmi terlihat dengan mata telanjang dibandingkan dengan versi pratinjau, dan pemrograman serta estetika telah ditingkatkan, tetapi pemahaman spasial, kemampuan agen, dan ingatan konteks yang panjang masih perlu dipoles. Selain itu, tes ini adalah versi berpikir normal, dan mode TTS dengan skor super tinggi belum online! Menantikan gelombang!
#Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问
Jangan menulis petunjuk dan menonton video! Kimi-K2.5 Diukur!
Sisi gelap bulan telah merilis model baru, Kimi-K2.5, dan pembaruan terbesar adalah akhirnya menjadi model terpadu, tidak hanya mendukung teks dan gambar, tetapi juga mendukung input video!
Membawakan hasil terukur dari Kimi-K2.5-Thinking:
Saya menemukan halaman web efek animasi yang keren dengan latar belakang sabuk asteroid + interaksi mouse + pengalihan gulir, dan kemudian merekam layar kepadanya, dan melemparkan video perekaman layar ke Kimi-K2.5-Berpikir untuk dilakukan, saya memberikan 80 poin untuk restorasi ini, kecuali efek pembengkokan material yang fleksibel tidak terwujud, yang lainnya cukup bagus.
Detail tes kemampuan pemrograman: Tes pasta gigi gajah meledak, dan efek ini terasa sulit untuk disaingi dalam jangka pendek; Uji penuangan cangkir Python langsung mengikuti Claude-Sonnet, dan tidak mencapai tetesan di samping tanpa bantuan sisi miring (meskipun ada ruang untuk peningkatan kinerja, tabrakan partikel adalah O(n²), 400 partikel dihitung sebagai 80.000 kali per bingkai, saya membiarkannya dioptimalkan dengan meshing spasial dan halus).
Kemampuan agen Saya berlari selama 40 menit dengan tes pengendara berbasis silikon, membakar 10 juta token, dan skor tertinggi adalah 543,94, yang merupakan eselon pertama. Penarikan konteks panjang juga stabil lebih dari 85%, tetapi sensornya agak ketat, dan isi novel mudah disalahnilai dan sensitif (telah dilaporkan bahwa pejabat sedang direvisi).
Ringkasan: Algoritme dan kinerja pemrograman telah ditingkatkan, kemampuan Python langsung berada di eselon pertama, dan Agen dan konteks panjang online. Yang paling penting adalah modalitas video, saya sudah memikirkan cara baru untuk bermain - buat MCP kamera dan biarkan itu membantu saya menatap layar haha!
#KimiK25 #Kimi #月之暗面 #KCORES大模型竞技场 #AIAgent #全模态模型 #AI开始使唤AI干活了
21
Arsitektur Teknis DeepSeek-V4 Diekspos Sebelumnya!
Semua orang tahu bahwa arsitektur MoE model besar saat ini mengintegrasikan kemampuan penalaran dan pengetahuan AI ke dalam setiap ahli, jadi apakah mungkin bagi para ahli untuk hanya menggunakannya untuk penalaran, dan kemudian menyimpan sejumlah besar pengetahuan eksternal di area tertentu, membentuk arsitektur seperti Cyborg yang dijelaskan dalam Ghost in the Shell, yang sebenarnya terdiri dari otak elektronik + memori eksternal?
DeepSeek telah melakukan ini!

76
Teratas
Peringkat
Favorit
