DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Secondo i benchmark, Qwen3.5 4B è buono quanto GPT 4o. GPT 4o è uscito circa 2 anni fa (maggio 2024). Qwen 3.5 4B funziona facilmente su dispositivi mobili moderni. Quindi il divario tra l'intelligenza di frontiera in un datacenter e l'esecuzione di un modello di qualità equivalente sul tuo iPhone potrebbe essere di 2-3 anni. (Probabilmente più vicino a 3, assumendo che Qwen3.5 4B sia più ottimizzato rispetto a 4o) Non mi aspetto che la tendenza all'aumento dell'intelligenza per watt cambi. Quindi, tra 2-3 anni, è plausibile che stiamo eseguendo modelli di qualità GPT 5.x su un iPhone. Davvero incredibile.

@martinald Non ho fatto il calcolo (sarei molto curioso di vederlo). Ma scommetterei che potresti far funzionare un contesto di >100k su un telefono con 10GB con la quantizzazione della cache KV.

Chiunque mi dica che il contesto è il problema. È limitato ma non insormontabile. Qwen 3.5 è un modello ibrido. Ha 8 strati di attenzione globale (dimensione testa=128, teste chiave/valore=4). Assumi una quantizzazione della cache KV a 8 bit (nessuna perdita di qualità). Con 2GB puoi adattare una lunghezza di contesto di ~65k. Buon inizio. Migliorerà.

Chiunque mi dica che il contesto è il problema. È limitato ma non insormontabile. Qwen 3.5 è un modello ibrido. Ha 8 strati di attenzione globale (dimensione testa=256, teste chiave/valore=4). Assumendo una quantizzazione della cache KV a 8 bit (senza perdita di qualità). Con 2GB puoi adattare una lunghezza di contesto di ~65k. Buon inizio. Migliorerà.

@simonw (Ho incrociato alcuni dei risultati e sono corretti per quanto posso dire)

Ci sono molti commenti sul fatto che questo modello sia benchmaxxed / abbia valutazioni trapelate / non sia buono come 4o. Sarebbe bello se qualcuno facesse un'analisi rigorosa utilizzando alcuni benchmark idealmente nascosti e diversificati. A quale modello di frontiera è comparabile Qwen 3.5 4B? Qual è una stima ragionevole per il tempo da frontiera a edge? Finora non vedo alcuna prova che sia più di 3 anni, e molto probabilmente si colloca da qualche parte nella fascia di 2-4 anni.

185

Principali

Ranking

Preferiti