Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gavin Baker
Partner zarządzający i CIO, @atreidesmgmt. Mąż, @l3eckyy. Brak porad inwestycyjnych, przeglądam własne. https://t.co/pFe9KmNu9U
Uwielbiam @semianalysis, ale konkurencja jest dobra dla wszystkich, a @fundabottom wykonuje znakomitą pracę nad AI i rozwijającymi się architekturami centrów danych, które to wspierają.

FundaAI11 godz. temu
Deep| $LITE: Nowo wprowadzone przez Google półki na przełączniki w szafach serwerowych są w rzeczywistości korzystne dla OCS i optyki
FundaAI
Ostatnio toczyła się szeroka dyskusja na temat wprowadzenia przez Google nowej półki na przełączniki w przyszłych szafach TPU. Dominujący pogląd jest taki, że ta nowa półka na przełączniki, gdy jest sprzedawana razem z szafami TPU dla zewnętrznych klientów, zastępuje sieć torus 3D siecią CLOS, co może być negatywne dla OCS.
Zidentyfikowaliśmy tę zmianę na bardzo wczesnym etapie i przeprowadziliśmy własne kontrole łańcucha dostaw. Odkryliśmy, że większość analiz znacząco myli topologię sieci Google, dlatego napisaliśmy tę notatkę, aby wyjaśnić sytuację. To zamieszanie trwa od dłuższego czasu, głównie dlatego, że architektura sieci Google jest naprawdę unikalna.
Szczegółowy raport

4
Nvidia kupuje Groq z dwóch powodów, moim zdaniem.
1) Inferencja rozdziela się na prefill i dekodowanie. Architektury SRAM mają unikalne zalety w dekodowaniu dla obciążeń, w których wydajność jest głównie funkcją przepustowości pamięci. Rubin CPX, Rubin oraz domniemana odmiana „Rubin SRAM” pochodząca z Groq powinny dać Nvidia możliwość łączenia i dopasowywania chipów, aby stworzyć optymalną równowagę między wydajnością a kosztami dla każdego obciążenia. Rubin CPX jest zoptymalizowany do ogromnych okien kontekstowych podczas prefill w wyniku super wysokiej pojemności pamięci przy stosunkowo niskiej przepustowości GDDR DRAM. Rubin jest koniem roboczym dla treningu i obciążeń inferencyjnych o wysokiej gęstości, przetwarzanych w partiach, z jego HBM DRAM, który osiąga równowagę między przepustowością pamięci a pojemnością. Pochodząca z Groq „Rubin SRAM” jest zoptymalizowana do ultra-niskiej latencji w obciążeniach inferencyjnych związanych z agentami, w wyniku ekstremalnie wysokiej przepustowości pamięci SRAM kosztem niższej pojemności pamięci. W tym ostatnim przypadku, prawdopodobnie użyty zostanie albo CPX, albo normalny Rubin do prefill.
2) Od dłuższego czasu jasne jest, że architektury SRAM mogą osiągać metryki tokenów na sekundę znacznie wyższe niż GPU, TPU czy jakiekolwiek ASIC, które dotychczas widzieliśmy. Ekstremalnie niska latencja dla pojedynczego użytkownika kosztem przepustowości na dolara. 18 miesięcy temu mniej jasne było, czy użytkownicy końcowi są gotowi płacić za tę prędkość (SRAM jest droższy na token z powodu znacznie mniejszych rozmiarów partii). Teraz jest to oczywiście jasne z ostatnich wyników Cerebras i Groq, że użytkownicy są gotowi płacić za prędkość.
Zwiększa to moją pewność, że wszystkie ASIC-y, z wyjątkiem TPU, AI5 i Trainium, ostatecznie zostaną anulowane. Powodzenia w rywalizacji z 3 wariantami Rubina i wieloma powiązanymi chipami sieciowymi. Chociaż wydaje się, że ASIC OpenAI będzie zaskakująco dobry (znacznie lepszy niż ASIC Meta i Microsoftu).
Zobaczymy, co zrobi AMD. Intel już zmierza w tym kierunku (mają SKU zoptymalizowane do prefill i zakupili SambaNova, który był najsłabszym konkurentem SRAM). Trochę zabawne, że Meta kupiła Rivos.
A Cerebras, gdzie jestem stronniczy, jest teraz w bardzo interesującej i strategicznej pozycji jako ostatni (zgodnie z publiczną wiedzą) niezależny gracz SRAM, który był przed Groq we wszystkich publicznych benchmarkach. Architektura „wiele chipów” Groq była jednak znacznie łatwiejsza do zintegrowania z stosami sieciowymi Nvidii, a być może nawet w ramach jednego racka, podczas gdy WSE Cerebras prawie musi być niezależnym rackiem.
315
Najlepsze
Ranking
Ulubione

