Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI tocmai a implementat GPT-5.3-Codex-Spark pe hardware-ul Cerebras la scară de plachete, atingând 1.000+ token-uri pe secundă — aproximativ 10-20x
Mai rapid decât inferența GPU.
Nu este o îmbunătățire incrementală; E un
o schimbare arhitecturală fundamentală care face posibilă colaborarea AI în timp real pentru prima dată.
---
GÂTUL DE STICLĂ DESPRE CARE NIMENI NU VORBEȘTE
Iată secretul amar al inferenței AI: clusterul tău GPU petrece cea mai mare parte a timpului *fără să calculeze*.
Când rulezi un model de limbaj mare pe plăci grafice NVIDIA, înmulțirile efective ale matricilor sunt rapide. Ce te omoară este:
1. Comunicare între GPU-uri — Fragmentarea unui model de parametri 175B+ pe 8 GPU-uri înseamnă amestecare constantă a datelor
2. Lățimea de bandă a memoriei — HBM este rapid, dar este tot off-chip
3. Overhead de batching — GPU-urile optimizează pentru debit, nu pentru latență, așa că așteaptă pentru a bate cererile în loturi
Rezultatul? Chiar și pe modelele H100 de ultimă generație, te uiți la 50-150 jetoane pe secundă pentru modelele frontier. Este în regulă pentru sarcini asincrone. Este groaznic pentru interacțiunea în timp real.
---
CEREBRAS: UN WAFER CARE SĂ-I CONDUCĂ PE TOȚI
Cerebras a adoptat o abordare radical diferită: nu construi cipuri, construiește plachete.
Specificațiile WSE-3 (Wafer Scale Engine 3) sunt uluitoare:
WSE-3 NVIDIA B200 Raport
Dimensiunea matriței 46.255 mm² ~800 mm² 57x...


Limită superioară
Clasament
Favorite
