Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zawsze zakładałem, że LLM-y będą działać w ten sposób, ponieważ tak myślę (i przypuszczalnie większość innych ludzi też)
Zakładam, że podstawową jednostką myśli jest ten gestaltowy wektor myśli, a nie "słowa", i wszyscy opracowaliśmy bardzo szybki sposób na przetłumaczenie ich na słowa, ponieważ słowa są bardziej komunikowalne niż fragmenty myśli
To zawsze był mój problem z dyskursem "niektórzy ludzie nie mają wewnętrznego monologu!"
Po prostu nie ma sensu, aby słowa były podstawową jednostką, w której ludzie myślą. To jak 1000 razy szybciej myśleć w kategoriach obrazów lub tych fragmentów myśli czy czegokolwiek innego
Zakładam, że wydaje się, że ludzie myślą w słowach, ponieważ kiedy opisują, co myślą innym, muszą przetłumaczyć fragmenty myśli na słowa - ponieważ tak się komunikujemy - a ten proces przekształca ich rzeczywiste myśli w formę monologu
Ale ma sens myśleć w słowach tylko wtedy, gdy musisz wydać jakąś formę komunikacji. W przeciwnym razie nie jest to zbyt efektywne
A ludzkie mózgi są niesamowicie efektywne

23 mar, 00:54
🚨 PRZEŁOM: Tencent zabił paradygmat „następnego tokena”.
Tencent i Tsinghua wypuściły CALM (Ciągłe Autoregresywne Modele Językowe), które całkowicie zakłócają paradygmat następnego tokena.
LLM obecnie marnują ogromne ilości mocy obliczeniowej, przewidując dyskretne, pojedyncze tokeny przez ogromną warstwę softmax słownika. To jest wolne i źle się skaluje.
CALM całkowicie omija słownik. Używa autoenkodera o wysokiej wierności do kompresji fragmentów tekstu w pojedynczy ciągły wektor z dokładnością rekonstrukcji 99,9%.
Model teraz przewiduje „następny wektor” w ciągłej przestrzeni.
Liczby są naprawdę szalone:
- Każdy krok generacyjny teraz niesie 4× większą przepustowość semantyczną.
- Moc obliczeniowa potrzebna do treningu została zmniejszona o 44%.
- Wąskie gardło softmax zostało całkowicie usunięte.
Dosłownie obserwujemy, jak modele językowe ewoluują z pisania dyskretnych symboli do strumieniowania ciągłych myśli.
To zmienia całą trajektorię AI.

Komentuję tylko mechanizm opisany tutaj, a nie rzeczywistą technologię od tencent czy czegokolwiek innego.
Zakładam, że przejście od wektorów do tokenów będzie dość wolne/nieefektywne przez długi czas i wątpię, że to ZREWOLUCJONIZUJE AI czy cokolwiek innego w krótkim okresie.
284
Najlepsze
Ranking
Ulubione
