Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gavin Baker
Partner zarządzający i CIO, @atreidesmgmt. Mąż, @l3eckyy. Brak porad inwestycyjnych, przeglądam własne. https://t.co/pFe9KmNu9U
Nvidia kupuje Groq z dwóch powodów, moim zdaniem.
1) Inferencja rozdziela się na prefill i dekodowanie. Architektury SRAM mają unikalne zalety w dekodowaniu dla obciążeń, w których wydajność jest głównie funkcją przepustowości pamięci. Rubin CPX, Rubin oraz domniemana odmiana „Rubin SRAM” pochodząca z Groq powinny dać Nvidia możliwość łączenia i dopasowywania chipów, aby stworzyć optymalną równowagę między wydajnością a kosztami dla każdego obciążenia. Rubin CPX jest zoptymalizowany do ogromnych okien kontekstowych podczas prefill w wyniku super wysokiej pojemności pamięci przy stosunkowo niskiej przepustowości GDDR DRAM. Rubin jest koniem roboczym dla treningu i obciążeń inferencyjnych o wysokiej gęstości, przetwarzanych w partiach, z jego HBM DRAM, który osiąga równowagę między przepustowością pamięci a pojemnością. Pochodząca z Groq „Rubin SRAM” jest zoptymalizowana do ultra-niskiej latencji w obciążeniach inferencyjnych związanych z agentami, w wyniku ekstremalnie wysokiej przepustowości pamięci SRAM kosztem niższej pojemności pamięci. W tym ostatnim przypadku, prawdopodobnie użyty zostanie albo CPX, albo normalny Rubin do prefill.
2) Od dłuższego czasu jasne jest, że architektury SRAM mogą osiągać metryki tokenów na sekundę znacznie wyższe niż GPU, TPU czy jakiekolwiek ASIC, które dotychczas widzieliśmy. Ekstremalnie niska latencja dla pojedynczego użytkownika kosztem przepustowości na dolara. 18 miesięcy temu mniej jasne było, czy użytkownicy końcowi są gotowi płacić za tę prędkość (SRAM jest droższy na token z powodu znacznie mniejszych rozmiarów partii). Teraz jest to oczywiście jasne z ostatnich wyników Cerebras i Groq, że użytkownicy są gotowi płacić za prędkość.
Zwiększa to moją pewność, że wszystkie ASIC-y, z wyjątkiem TPU, AI5 i Trainium, ostatecznie zostaną anulowane. Powodzenia w rywalizacji z 3 wariantami Rubina i wieloma powiązanymi chipami sieciowymi. Chociaż wydaje się, że ASIC OpenAI będzie zaskakująco dobry (znacznie lepszy niż ASIC Meta i Microsoftu).
Zobaczymy, co zrobi AMD. Intel już zmierza w tym kierunku (mają SKU zoptymalizowane do prefill i zakupili SambaNova, który był najsłabszym konkurentem SRAM). Trochę zabawne, że Meta kupiła Rivos.
A Cerebras, gdzie jestem stronniczy, jest teraz w bardzo interesującej i strategicznej pozycji jako ostatni (zgodnie z publiczną wiedzą) niezależny gracz SRAM, który był przed Groq we wszystkich publicznych benchmarkach. Architektura „wiele chipów” Groq była jednak znacznie łatwiejsza do zintegrowania z stosami sieciowymi Nvidii, a być może nawet w ramach jednego racka, podczas gdy WSE Cerebras prawie musi być niezależnym rackiem.
289
Głęboko rozbawiony wszystkimi pewnymi komentarzami, że centra danych w kosmosie nie działają z perspektywy fizyki i inżynierii.
Elon prowadzi dwa z największych spójnych klastrów GPU na świecie, SpaceX odpowiada za ponad 90% masy wynoszonej na orbitę, a SpaceX obsługuje największą konstelację satelitów w układzie słonecznym. Ponad 10 lat później, żadna inna firma ani kraj nie potrafi konsekwentnie lądować i ponownie wykorzystywać rakiet orbitalnych.
Publicznie stwierdził, że „najtańszym sposobem na obliczenia AI będzie wykorzystanie satelitów zasilanych energią słoneczną.”
Może, po prostu może, jego „analiza fizyki lub ekonomiki na papierze” jest lepsza od twojej. Może nawet była przeprowadzona nie tylko „analiza na papierze” tego tematu przez niektórych z najlepszych inżynierów na świecie. Być może pomyśleli o rozwiązaniu chłodzenia, które nie przyszło do głowy tutaj galaktycznym mózgom, nawet po tym, jak poświęcili kilka minut na staranne przemyślenie problemu.
CEO Google również zgadza się, że centra danych w kosmosie będą „normalne” w ciągu dekady.
Jeśli obecnie nie prowadzisz dużego centrum danych AI, dużego klastra satelitów i nie wylądowałeś rakietą, może warto być trochę mniej szybkim w pewnym zakładaniu, że Elon i Google są *obie* w błędzie w tej kwestii.
Szczególnie gdy istnieje działające, choć bardzo małe, centrum danych w kosmosie *dziś* - orbitalna konfiguracja Starcloud właśnie pomyślnie wytrenowała LLM. Świetna nazwa nawiasem mówiąc.
Tak, jestem stronniczy w tych kwestiach i jak zawsze, czas pokaże.
330
Najlepsze
Ranking
Ulubione

