DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Alibaba mengirimkan empat model kecil Qwen 3.5 dengan trik yang dipinjam dari model 397B mereka: perhatian hibrida Gated DeltaNet. Tiga lapisan perhatian linier untuk setiap satu lapisan perhatian penuh. Lapisan linier menangani komputasi rutin dengan penggunaan memori konstan. Lapisan perhatian penuh hanya menyala ketika presisi penting. Rasio 3:1 ini menjaga memori tetap datar sementara kualitasnya tetap tinggi, itulah sebabnya bahkan model 0,8B mendukung jendela konteks 262.000 token. Setiap model menangani teks, gambar, dan video secara asli. Tidak ada adaptor yang dibaut setelahnya. Encoder visi menggunakan konvolusi 3D untuk menangkap gerakan dalam video, lalu menggabungkan fitur dari beberapa lapisan, bukan hanya yang terakhir. 9B mengalahkan GPT-5-Nano dengan 13 poin pada pemahaman multimodal, 17 poin pada matematika visual, dan 30 poin pada penguraian dokumen. 0.8B berjalan di ponsel dan memproses video. 4B muat dalam VRAM 8GB dan bertindak sebagai agen multimodal. Keempatnya adalah Apache 2.0. Jika arsitektur ini berlaku, ruang model kecil hanya menjadi perlombaan kemampuan, bukan perlombaan ukuran. Setahun yang lalu, menjalankan model multimoda secara lokal berarti model 13B+ dan GPU yang serius. Sekarang model 4B dengan konteks 262K menangani teks, gambar, dan video dari perangkat keras konsumen. Kesenjangan antara model tepi dan model unggulan menutup lebih cepat daripada kesenjangan antara flagship dan manusia.

Teratas

Peringkat

Favorit