Według benchmarków Qwen3.5 4B jest tak samo dobry jak GPT 4o. GPT 4o pojawił się około 2 lata temu (maj 2024). Qwen 3.5 4B działa bez problemu na nowoczesnych urządzeniach mobilnych. Zatem różnica między inteligencją frontier w centrum danych a uruchamianiem modelu o równej jakości na twoim iPhonie może wynosić 2-3 lata. (Prawdopodobnie bliżej 3, zakładając, że Qwen3.5 4B jest bardziej benchmaxxowany niż 4o) Nie spodziewam się, że trend wzrastającej inteligencji na wat zmieni się. Więc za 2-3 lata jest prawdopodobne, że będziemy uruchamiać modele o jakości GPT 5.x na iPhonie. Całkiem szalone.
@martinald Nie zrobiłem obliczeń (byłbym bardzo ciekaw, aby je zobaczyć). Ale stawiam, że mógłbyś sprawić, że kontekst o długości >100k zadziała na telefonie z 10GB pamięci przy kwantyzacji pamięci KV.
Każdy, kto mówi mi, że kontekst jest problemem. Jest ograniczony, ale nie nie do pokonania. Qwen 3.5 to model hybrydowy. Ma 8 globalnych warstw uwagi (wymiar głowy=128, głowy klucza/wartości=4). Zakładając kwantyzację pamięci KV na 8 bitów (bez utraty jakości). Z 2GB możesz pomieścić ~65k długości kontekstu. Dobry początek. Będzie lepiej.
Każdy, kto mówi mi, że kontekst jest problemem. Jest ograniczony, ale nie nie do pokonania. Qwen 3.5 to model hybrydowy. Ma 8 globalnych warstw uwagi (wymiar głowy=256, klucze/wartości=4). Zakładając kwantyzację pamięci KV na 8 bitów (bez utraty jakości). Z 2GB możesz pomieścić ~65k długości kontekstu. Dobry początek. Będzie lepiej.
@simonw (Sprawdziłem niektóre wyniki i są poprawne, o ile mogę to stwierdzić)
Wiele komentarzy, że ten model jest benchmaxxed / wyciekłe oceny / nie jest tak dobry jak 4o. Byłoby miło, gdyby ktoś przeprowadził rygorystyczną analizę, używając idealnie ukrytych i różnorodnych benchmarków. Do jakiego modelu frontier porównywalny jest Qwen 3.5 4B? Jaki jest rozsądny szacunek czasu od frontier do edge? Jak na razie nie widzę żadnych dowodów, że to więcej niż 3 lata, a bardzo prawdopodobne, że gdzieś w zakresie 2-4 lat.
188