DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Fan, @sanchitmonga22 RunAnywhereAI-teamet kom på MetalRT på 48 timmar, vilket direkt torkade avkodningshastigheten för LLM:er på Apple Silicon till en ny nivå, med samma 4-bitarsmodell på M4 Max, Qwen3-0,6B körs på 658 tok/s, LFM 2,5-1,2B 570 tok/s, och den första token tar bara 6,6 ms. Jämfört med samma dokument är Apples egen MLX 19 %, hammer llama.cpp genomsnittet är 67 %, för att inte tala om Uzu och Ollama, som ligger efter överlag. Apples Apple Intelligence har alltid ropat lokal prioritet, men hårdvarupotentialen slösas faktiskt bort på olika ramverksbegränsningar, vilket motsvarar att vara förseglad; MetalRT ska direkt attackera Metal API, skära bort den röriga överhuvudet från Python-lagret och abstraktionslagret, och anpassa det för enhetligt minne + GPU för att pressa ut denna våg av extrem prestanda. Det verkliga värdet av den lokala modellen är aldrig "bara kör om du kan", utan den går tillräckligt snabbt, ekonomiskt och tillräckligt privat för att verkligen ersätta molnet. 6,6 ms första token betyder chatt, röst, kodtillägg och agentsamtal JSON utan dröjsmål; Höga tok/s kan utöka kontexten, multiverktygsparallellism och undvika störning. I kombination med noll nätverk, inga prenumerationer och data som aldrig lämnar enheten, är detta hur produktivitetsnivå lokal AI bör se ut. Snabbare är inte att visa upp tok/s-siffror, utan att låta den lilla modellen direkt slå responsupplevelsen från molnmodellen på Apples enheter. Apples AI på enheten är tänkt att spelas så här, och nu har den verkligen börjat accelerera. Apple sitter verkligen hemma, open source-communityn bygger för att öppna Pandoras ask, lokal AI är för bekväm, jag hoppas bara att mer intelligenta modeller dyker upp.

Topp

Rankning

Favoriter