Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ein ernsthafterer Thread über den DeepSeek-OCR-Hype / ernsthafte Fehlinterpretationen, die im Gange sind.
1.
Bei der Token-Reduktion durch die Darstellung von Text in Bildern haben Forscher aus Cambridge zuvor gezeigt, dass eine 500-fache Kompression der Prompt-Token möglich ist (ACL'25, Li, Su und Collier).
Ohne die Idee zu verwenden, Text in Bilder umzuwandeln.
2.
Wir sollten den Erfolg von DeepSeek OCR nicht der Kraft der Bilddarstellung zuschreiben.
Gleichzeitig ist nichts grundsätzlich falsch mit der Textdarstellung mit welchem Tokenizer auch immer.
Tatsächlich kann man das Gegenteil von dem tun, was DeepSeek-OCR gemacht hat, d.h. man kann Bilder als eine Sequenz von Text-Token darstellen (jeder repräsentiert seine RGB-Werte), und es wird einfach gut funktionieren. (Siehe das LIFT-Papier.)
3.
Die einzige richtige Erkenntnis ist, dass die aktuellen Einbettungsräume, die von LLMs verwendet werden, einfach riesig und vielleicht sogar sehr verschwenderisch sind.
Und wichtig ist, dass wir sie noch nicht vollständig nutzen.
4.
Es gibt viele aktuelle Beweise, die dieselbe Botschaft unterstützen.
Zum Beispiel wird gezeigt, dass, wenn Sie kontextuelle Demonstrationen aus mehreren Aufgaben bereitstellen, aber in einem einzigen Kontext gemischt, Ihr Modell mehrere ICL-Vorhersageaufgaben gleichzeitig lösen kann. (Siehe das EVERYTHING EVERYWHERE ALL AT ONCE-Papier.)
5.
tldr;
- DeepSeek-OCR ist cool
- aber Sie können eine höhere Token-Reduktionsrate erreichen, indem Sie einfach LLMs auf komprimierte Text-Token feinabstimmen
- es gibt mehr Beweise dafür, dass LLMs den großen Einbettungsraum und die enorme Rechenleistung, die zur Inferenzzeit benötigt wird, nicht vollständig nutzen
- und das ist die einzige echte Erkenntnis, die Sie mitnehmen sollten.



Top
Ranking
Favoriten

