Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un fil plus sérieux sur le battage médiatique de DeepSeek-OCR / la sérieuse mauvaise interprétation qui se produit.
1.
Concernant la réduction de tokens via la représentation de texte dans des images, des chercheurs de Cambridge ont précédemment montré qu'une compression de 500x des tokens de prompt est possible (ACL'25, Li, Su et Collier).
Sans utiliser l'idée de convertir du texte en images.
2.
Nous ne devrions pas attribuer le succès de DeepSeek OCR à la puissance de la représentation d'images.
En même temps, il n'y a rien de fondamentalement erroné avec la représentation de texte avec n'importe quel tokenizer.
En fait, vous pouvez faire l'opposé de ce que DeepSeek-OCR a fait, c'est-à-dire que vous pouvez représenter des images comme une séquence de tokens de texte (chacun représentant leurs valeurs RGB), et tout fonctionnera très bien. (Voir le document LIFT.)
3.
La seule conclusion correcte est que les espaces d'embedding actuels utilisés par les LLM sont tout simplement énormes et peut-être même très gaspillés.
Et surtout, nous n'en faisons pas encore un usage complet.
4.
Il existe de nombreuses preuves récentes soutenant le même message.
Par exemple, il est montré que si vous fournissez des démonstrations en contexte de plusieurs tâches mais mélangées dans un seul contexte, alors votre modèle peut résoudre plusieurs tâches de prédiction ICL simultanément. (Voir le document EVERYTHING EVERYWHERE ALL AT ONCE.)
5.
tldr;
- DeepSeek-OCR est cool
- mais vous pouvez atteindre un taux de réduction de tokens plus élevé en ajustant simplement les LLM sur des tokens de texte compressés
- il y a plus de preuves que les LLM n'utilisent pas pleinement le grand espace d'embedding et la grande quantité de calcul qui entre en jeu au moment de l'inférence
- et c'est la seule vraie conclusion que vous devriez retenir.



Meilleurs
Classement
Favoris

