Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Poważniejszy wątek na temat hype'u DeepSeek-OCR / poważnego błędnego zrozumienia, które ma miejsce.
1.
W zakresie redukcji tokenów poprzez reprezentowanie tekstu w obrazach, badacze z Cambridge wcześniej pokazali, że możliwa jest kompresja tokenów o współczynniku 500x (ACL'25, Li, Su i Collier).
Bez używania pomysłu konwersji tekstu na obrazy.
2.
Nie powinniśmy przypisywać sukcesu DeepSeek OCR mocy reprezentacji obrazów.
Jednocześnie nie ma nic fundamentalnie złego w reprezentacji tekstu przy użyciu dowolnego tokenizera.
W rzeczywistości można zrobić odwrotność tego, co zrobił DeepSeek-OCR, tzn. można reprezentować obrazy jako sekwencję tokenów tekstowych (każdy reprezentujący ich wartości RGB), a wszystko będzie działać dobrze. (Zobacz pracę LIFT.)
3.
Jedynym poprawnym wnioskiem jest to, że obecne przestrzenie osadzeń używane przez LLM są po prostu ogromne i być może nawet bardzo marnotrawne.
I co ważne, jeszcze nie wykorzystujemy ich w pełni.
4.
Istnieje wiele niedawnych dowodów wspierających tę samą wiadomość.
Na przykład pokazano, że jeśli dostarczysz w kontekście demonstracje z wielu zadań, ale wymieszane w jednym kontekście, to twój model może jednocześnie rozwiązywać wiele zadań predykcji ICL. (Zobacz pracę EVERYTHING EVERYWHERE ALL AT ONCE.)
5.
tldr;
- DeepSeek-OCR jest fajny
- ale możesz osiągnąć wyższy wskaźnik redukcji tokenów, po prostu dostosowując LLM do skompresowanych tokenów tekstowych
- istnieją dalsze dowody, że LLM nie w pełni wykorzystują dużą przestrzeń osadzeń i ogromną moc obliczeniową, która jest wykorzystywana w czasie wnioskowania
- i to jest jedyny prawdziwy wniosek, który powinieneś wyciągnąć.



Najlepsze
Ranking
Ulubione

