Un thread più serio sull'hype di DeepSeek-OCR / seria interpretazione errata in corso. 1. Sulla riduzione dei token tramite la rappresentazione del testo nelle immagini, i ricercatori di Cambridge hanno precedentemente dimostrato che è possibile una compressione dei token di prompt di 500x (ACL'25, Li, Su e Collier). Senza utilizzare l'idea di convertire il testo in immagini. 2. Non dovremmo attribuire il successo di DeepSeek OCR al potere della rappresentazione delle immagini. Allo stesso tempo, non c'è nulla di fondamentalmente sbagliato nella rappresentazione del testo con qualsiasi tokenizer. Infatti, puoi fare l'opposto di ciò che ha fatto DeepSeek-OCR, cioè puoi rappresentare le immagini come una sequenza di token di testo (ognuno rappresentante i loro valori RGB), e le cose funzioneranno semplicemente bene. (Vedi il documento LIFT.) 3. L'unico takeaway corretto è che gli attuali spazi di embedding utilizzati dagli LLM sono semplicemente enormi e forse anche molto spreconi. E, cosa importante, non li stiamo ancora utilizzando appieno. 4. Ci sono molte prove recenti che supportano lo stesso messaggio. Ad esempio, è stato dimostrato che se fornisci dimostrazioni contestuali da più compiti ma mescolati in un unico contesto, allora il tuo modello può risolvere simultaneamente più compiti di previsione ICL. (Vedi il documento EVERYTHING EVERYWHERE ALL AT ONCE.) 5. tldr; - DeepSeek-OCR è interessante - ma puoi ottenere un tasso di riduzione dei token più elevato semplicemente affinando gli LLM su token di testo compressi - ci sono ulteriori prove che gli LLM non stanno sfruttando appieno il grande spazio di embedding e l'enorme quantità di calcolo che viene utilizzata durante il tempo di inferenza - e questo è l'unico vero takeaway che dovresti portare via.