En mer seriøs tråd om DeepSeek-OCR-hypen / alvorlig feiltolkning som pågår. 1. Når det gjelder tokenreduksjon ved å representere tekst i bilder, har forskere fra Cambridge tidligere vist at 500x prompt token-komprimering er mulig (ACL'25, Li, Su og Collier). Uten å bruke ideen om å konvertere tekst til bilder. 2. Vi bør ikke tilskrive suksessen til DeepSeek OCR til kraften i bilderepresentasjon. Samtidig er det ikke noe grunnleggende galt med tekstrepresentasjon med hvilken som helst tokenizer. Faktisk kan du gjøre det motsatte av hva DeepSeek-OCR gjorde, det vil si at du kan representere bilder som en sekvens av teksttokens (som hver representerer RGB-verdiene deres), og ting vil bare fungere bra. (Se LIFT-papiret.) 3. Den eneste riktige takeawayen er at de nåværende innebyggingsplassene som brukes av LLM-er bare er enorme og kanskje til og med veldig bortkastede. Og viktigere, vi utnytter dem ikke fullt ut ennå. 4. Det er mye nyere bevis som støtter det samme budskapet. For eksempel vises det at hvis du gir demonstrasjoner i kontekst fra flere oppgaver, men blandet i en enkelt kontekst, kan modellen din løse flere ICL-prediksjonsoppgaver samtidig. (Se ALT OVERALT PÅ EN GANG-papiret.) 5. tldr; - DeepSeek-OCR er kult - men du kan oppnå en høyere tokenreduksjonsrate ved å bare finjustere LLM-er på squeezed text-tokens - det er mer bevis på at LLM-er ikke fullt ut utnytter den store innebyggingsplassen og den enorme mengden databehandling som går inn på slutningstidspunktet - og det er den eneste virkelige take away du bør ta med deg