🏎️ gemma-webgpu: zero-zależności, błyskawicznie szybki Gemma 1B działający całkowicie w Twojej przeglądarce. Cały vibe zakodowany z mojego telefonu komórkowego. 🔥 136,8 tok/s na M4 Mac (3,3x szybciej niż transformers.js) 📱 101 tok/s na iPhone 17 (270M), 34 tok/s (1B) Co zbudowaliśmy od podstaw: • 18 ręcznie napisanych shaderów obliczeniowych WGSL z połączonymi operacjami (fusedNormAdd oszczędza 36 wywołań GPU na każdy krok do przodu) • Dequantyzacja Q8_0 bezpośrednio na GPU — wyższa jakość niż q4 I szybsza • Strumieniowe ładowanie wag w zakresie warstwa po warstwie (~44MB kawałki), przesyłanie do GPU, natychmiastowe zwalnianie pamięci JS. Szczytowa pamięć: ~50MB nawet dla modelu 1GB • Ten trick strumieniowy to to, co pozwala 1B działać na iPhone. nigdy nie trzyma pełnego modelu w RAM 12KB skompresowane gzipem. Zero zależności. npm install gemma-webgpu