Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Selon les benchmarks, Qwen3.5 4B est aussi bon que GPT 4o.
GPT 4o est sorti il y a environ 2 ans (mai 2024).
Qwen 3.5 4B fonctionne facilement sur des appareils mobiles modernes.
Ainsi, l'écart entre l'intelligence de pointe dans un datacenter et l'exécution d'un modèle de qualité équivalente sur votre iPhone pourrait être de 2 à 3 ans. (Probablement plus proche de 3 en supposant que Qwen3.5 4B soit plus optimisé que 4o)
Je ne m'attends pas à ce que la tendance à l'augmentation de l'intelligence par watt change. Donc, dans 2 à 3 ans, il est plausible que nous exécutons des modèles de qualité GPT 5.x sur un iPhone. Assez fou.
@martinald Je n'ai pas fait le calcul (je serais très curieux de le voir). Mais je parierais que tu pourrais faire fonctionner un contexte de >100k sur un téléphone avec 10 Go grâce à la quantification du cache KV.
Quiconque me dit que le contexte est le problème. Il est limité mais pas insurmontable.
Qwen 3.5 est un modèle hybride. Il a 8 couches d'attention globale (dim tête=128, têtes clé/valeur=4).
Supposons une quantification du cache KV en 8 bits (sans perte de qualité). Avec 2 Go, vous pouvez adapter une longueur de contexte d'environ 65k. Bon début. Ça va s'améliorer.
Quiconque me dit que le contexte est le problème. Il est limité mais pas insurmontable.
Qwen 3.5 est un modèle hybride. Il a 8 couches d'attention globale (dim tête=256, têtes clé/valeur=4).
Supposons une quantification du cache KV en 8 bits (sans perte de qualité). Avec 2 Go, vous pouvez adapter une longueur de contexte d'environ 65k. Bon début. Cela va s'améliorer.
@simonw (J'ai croisé certains des résultats et ils sont corrects autant que je peux en juger)
Beaucoup de commentaires indiquent que ce modèle est benchmaxxed / a des évaluations divulguées / n'est pas aussi bon que 4o.
Ce serait bien si quelqu'un faisait une analyse rigoureuse en utilisant des benchmarks idéalement cachés et diversifiés. À quel modèle de pointe Qwen 3.5 4B est-il comparable ? Quelle est une estimation raisonnable du temps nécessaire pour passer de la frontière à la limite ?
Jusqu'à présent, je ne vois aucune preuve que cela prenne plus de 3 ans, et très probablement quelque part dans la fourchette de 2 à 4 ans.
294
Meilleurs
Classement
Favoris
