Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een serieuzer onderwerp over de DeepSeek-OCR hype / ernstige misinterpretatie die aan de gang is.
1.
Wat tokenreductie betreft door tekst in afbeeldingen weer te geven, hebben onderzoekers van Cambridge eerder aangetoond dat 500x prompt tokencompressie mogelijk is (ACL'25, Li, Su en Collier).
Zonder het idee te gebruiken om tekst naar afbeeldingen te converteren.
2.
We moeten het succes van DeepSeek OCR niet toeschrijven aan de kracht van afbeeldingsrepresentatie.
Tegelijkertijd is er niets fundamenteel mis met tekstrepresentatie met welke tokenizer dan ook.
In feite kun je het tegenovergestelde doen van wat DeepSeek-OCR deed, d.w.z. je kunt afbeeldingen weergeven als een reeks teksttokens (elk dat hun RGB-waarden vertegenwoordigt), en dingen zullen gewoon goed werken. (Zie het LIFT-papier.)
3.
De enige juiste conclusie is dat de huidige embeddingruimtes die door LLM's worden gebruikt gewoon enorm zijn en misschien zelfs zeer verspild.
En belangrijker nog, we maken ze nog niet volledig gebruik van.
4.
Er is veel recent bewijs dat dezelfde boodschap ondersteunt.
Bijvoorbeeld, er is aangetoond dat als je in-context demonstraties van meerdere taken biedt maar gemengd in een enkele context, je model meerdere ICL-voorspellingsopdrachten tegelijkertijd kan oplossen. (Zie het EVERYTHING EVERYWHERE ALL AT ONCE-papier.)
5.
tldr;
- DeepSeek-OCR is cool
- maar je kunt een hogere tokenreductiesnelheid bereiken door gewoon LLM's te finetunen op samengeperste teksttokens
- er is meer bewijs dat LLM's de grote embeddingruimte en de enorme hoeveelheid rekenkracht die tijdens de inferentietijd wordt gebruikt, niet volledig benutten
- en dat is de enige echte conclusie die je moet meenemen.



Boven
Positie
Favorieten

