Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba toimitti neljä Qwen 3.5 -pientä mallia, joissa oli temppu, joka oli lainattu heidän 397B-mallistaan: Gated DeltaNet -hybridihuomio.
Kolme tasoa lineaarista huomiota jokaista täyttä tarkkaavaisuuden kerrosta kohden.
Lineaariset kerrokset hoitavat rutiinilaskennan jatkuvalla muistinkäytöllä. Täysi huomio ampuu vain, kun tarkkuus on tärkeää.
Tämä 3:1-suhde pitää muistin tasaisena samalla kun laatu pysyy korkeana, minkä vuoksi jopa 0,8B-malli tukee 262 000 tokenin kontekstiikkunaa.
Jokainen malli käsittelee tekstiä, kuvia ja videota natiivisti.
Sovitinta ei kiinnitetty sen jälkeen. Vision enkooderi käyttää 3D-konvoluutioita videon liikkeen tallentamiseen ja yhdistää ominaisuuksia useista kerroksista pelkän viimeisen sijaan.
9B voittaa GPT-5-Nanoa 13 pisteellä multimodaalisessa ymmärtämisessä, 17 pisteellä visuaalisessa matematiikassa ja 30 pisteellä dokumenttien jäsentämisessä. 0.8B pyörii puhelimessa ja käsittelee videota. 4B mahtuu 8GB VRAM-muistiin ja toimii multimodaalisena agenttina. Kaikki neljä ovat Apache 2.0.
Jos tämä arkkitehtuuri pitää paikkansa, pieni mallitila muuttui kyvykkyyskilpailuksi kokokilpailun sijaan.
Vuosi sitten monimodaalinen malli paikallisesti tarkoitti 13B+ mallia ja vakavaa GPU:ta.
Nyt 4B-malli, jossa on 262K kontekstia, käsittelee tekstiä, kuvia ja videoita kuluttajalaitteista.
Reunamallien ja lippulaivamallien välinen kuilu kaventuu nopeammin kuin lippulaivojen ja ihmisten välinen ero.
Johtavat
Rankkaus
Suosikit
