DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Odată cu iminentul val de cerere pentru token-uri, există oportunități semnificative de a orchestra memoria + calculul de bază *exact cum trebuie* pentru LLM-uri. Constrângerea fundamentală și neevidentă este că, datorită procesului de fabricare a cipului, obții două fonduri complet distincte de memorie (de implementări fizice diferite): 1) SRAM integrat pe cip, care este imediat lângă unitățile de calcul, este incredibil de rapid, dar cu o capacitate foarte redusă, și 2) DRAM extern care are o capacitate extrem de mare, dar conținutul lui îl poți trage doar printr-un pai lung. Pe lângă asta, există multe detalii ale arhitecturii (de exemplu, tablouri sistolice), numere etc. Proiectarea substratului fizic optim și apoi orchestrarea memoriei + calcul în fluxurile de lucru de top ale LLM-urilor (prefill/decodare de inferență, antrenament/finetuning, etc.) cu cel mai bun debit/latență/dolari este probabil cel mai interesant puzzle intelectual de astăzi, cu cele mai mari recompense (\cite 4.6T din NVDA). Toate acestea pentru a obține multe jetoane, rapid și ieftin. Se poate argumenta că fluxul de lucru care ar putea conta cel mai mult (decodarea prin inferență *și* pe contexte lungi de tokenuri în bucle agențice strânse) este cel mai greu de realizat simultan de ~ambele tabere care există astăzi (HBM-întâi NVIDIA adiacent și SRAM-întâi Cerebras). Oricum, echipa MatX are grad A++, așa că este o plăcere să am o mică implicare și felicitări pentru mărire!

Limită superioară

Clasament

Favorite