Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Secondo i benchmark, Qwen3.5 4B è buono quanto GPT 4o.
GPT 4o è uscito circa 2 anni fa (maggio 2024).
Qwen 3.5 4B funziona facilmente su dispositivi mobili moderni.
Quindi il divario tra l'intelligenza di frontiera in un datacenter e l'esecuzione di un modello di qualità equivalente sul tuo iPhone potrebbe essere di 2-3 anni. (Probabilmente più vicino a 3, assumendo che Qwen3.5 4B sia più ottimizzato rispetto a 4o)
Non mi aspetto che la tendenza all'aumento dell'intelligenza per watt cambi. Quindi, tra 2-3 anni, è plausibile che stiamo eseguendo modelli di qualità GPT 5.x su un iPhone. Davvero incredibile.
@martinald Non ho fatto il calcolo (sarei molto curioso di vederlo). Ma scommetterei che potresti far funzionare un contesto di >100k su un telefono con 10GB con la quantizzazione della cache KV.
Chiunque mi dica che il contesto è il problema. È limitato ma non insormontabile.
Qwen 3.5 è un modello ibrido. Ha 8 strati di attenzione globale (dimensione testa=128, teste chiave/valore=4).
Assumi una quantizzazione della cache KV a 8 bit (nessuna perdita di qualità). Con 2GB puoi adattare una lunghezza di contesto di ~65k. Buon inizio. Migliorerà.
Chiunque mi dica che il contesto è il problema. È limitato ma non insormontabile.
Qwen 3.5 è un modello ibrido. Ha 8 strati di attenzione globale (dimensione testa=256, teste chiave/valore=4).
Assumendo una quantizzazione della cache KV a 8 bit (senza perdita di qualità). Con 2GB puoi adattare una lunghezza di contesto di ~65k. Buon inizio. Migliorerà.
@simonw (Ho incrociato alcuni dei risultati e sono corretti per quanto posso dire)
Ci sono molti commenti sul fatto che questo modello sia benchmaxxed / abbia valutazioni trapelate / non sia buono come 4o.
Sarebbe bello se qualcuno facesse un'analisi rigorosa utilizzando alcuni benchmark idealmente nascosti e diversificati. A quale modello di frontiera è comparabile Qwen 3.5 4B? Qual è una stima ragionevole per il tempo da frontiera a edge?
Finora non vedo alcuna prova che sia più di 3 anni, e molto probabilmente si colloca da qualche parte nella fascia di 2-4 anni.
185
Principali
Ranking
Preferiti
