Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heilige shit... Microsoft heeft een inferentiekader open source gemaakt dat een 100B parameter LLM draait op een enkele CPU.
Het heet BitNet. En het doet wat onmogelijk leek te zijn.
Geen GPU. Geen cloud. Geen $10K hardware setup. Gewoon je laptop die een model met 100 miljard parameters draait met menselijke leessnelheid.
Hier is hoe het werkt:
Elke andere LLM slaat gewichten op in 32-bits of 16-bits floats.
BitNet gebruikt 1,58 bits.
Gewichten zijn ternair: gewoon -1, 0 of +1. Dat is het. Geen floats. Geen dure matrixwiskunde. Pure gehele getalbewerkingen waarvoor je CPU al was gebouwd.
Het resultaat:
- 100B model draait op een enkele CPU met 5-7 tokens/seconde
- 2,37x tot 6,17x sneller dan llama.cpp op x86
- 82% lagere energieverbruik op x86 CPU's
- 1,37x tot 5,07x versnelling op ARM (je MacBook)
- Geheugen daalt met 16-32x ten opzichte van full-precision modellen
Het wildste deel:
Nauwkeurigheid verandert nauwelijks.
BitNet b1.58 2B4T, hun vlaggenschipmodel, is getraind op 4 biljoen tokens en presteert competitief tegen full-precision modellen van dezelfde grootte. De kwantisatie vernietigt de kwaliteit niet. Het verwijdert gewoon de ballast.
Wat dit eigenlijk betekent:
...
Boven
Positie
Favorieten
