Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOWY DOKUMENT: LLM-y są niesamowite w wyjaśnianiu rzeczy i okropne w ich wykonywaniu.
Zapytaj model "jak" porównać dwie liczby dziesiętne, a on poda ci doskonały algorytm krok po kroku.
Zapytaj go, aby faktycznie "wykonał" porównanie… a nagle „9.11 jest większe niż 9.9, ponieważ 90 jest większe niż 11.”
Badacze nazywają to "syndromem rozdzielonego mózgu obliczeniowego". LLM-y rozwijają jedną ścieżkę do wyjaśniania procedury, a zupełnie inną do jej wykonania.
Te dwie ścieżki znajdują się w różnych częściach geometrii modelu (jak pokazano na wykresach t-SNE na stronach 14–16 tego dokumentu) i nie komunikują się ze sobą.
Dlatego model może nauczyć cię dzielenia długiego, ale nie potrafi tego robić niezawodnie.
Albo dlaczego potrafi artykułować zasady logiczne, a jednocześnie nie radzi sobie z podstawowym wnioskowaniem.
Albo dlaczego produkuje bezbłędny język i kruchą logikę.
Wyjaśnienie to przypomnienie wzorców.
Wykonanie to obliczenia.
LLM-y doskonale radzą sobie z pierwszym, a zasadniczo mają trudności z drugim.
Głęboko w architekturze, osadzenia zacierają znaczenia, które ludzie trzymają oddzielnie.
Dokument podaje zabawny przykład: „9.11” znajduje się bliżej „11 września” niż „dziewięć przecinek jedenaście”, ponieważ osadzenia tokenów uśredniają wszystkie konteksty, które widziały. Ta „kontaminacja kontekstowa” uniemożliwia czyste rozumowanie symboliczne.
Ponadto...
Transformatory mogą tylko produkować „ważone średnie” tego, co widziały. Nie mogą generować nowych wartości symbolicznych, takich jak „3354” z „43 × 78” przy użyciu rzeczywistej matematyki.
...

Najlepsze
Ranking
Ulubione
