Vážnější vlákno o humbuku kolem DeepSeek-OCR / závažné dezinterpretaci, která probíhá. 1. Pokud jde o redukci tokenů prostřednictvím reprezentace textu v obrázcích, výzkumníci z Cambridge již dříve ukázali, že je možná 500x rychlá komprese tokenů (ACL'25, Li, Su a Collier). Bez použití myšlenky převodu textu na obrázky. 2. Úspěch OCR DeepSeek bychom neměli připisovat síle reprezentace obrazu. Zároveň není nic zásadně špatného na reprezentaci textu pomocí jakéhokoli tokenizátoru. Ve skutečnosti můžete udělat opak toho, co udělal DeepSeek-OCR, tj. můžete obrázky reprezentovat jako sekvenci textových tokenů (z nichž každý představuje své hodnoty RGB) a věci budou fungovat dobře. (Viz článek LIFT.) 3. Jediným správným závěrem je, že současné vkládací prostory používané LLM jsou prostě obrovské a možná dokonce velmi nehospodárné. A co je důležité, zatím je plně nevyužíváme. 4. Existuje mnoho nedávných důkazů podporujících stejné poselství. Například je ukázáno, že pokud poskytnete kontextové ukázky z více úloh, ale smíchaných v jednom kontextu, pak váš model může řešit více úloh predikce ICL současně. (Viz článek VŠECHNO, VŠUDE, NAJEDNOU.) 5. tldr; - DeepSeek-OCR je v pohodě - ale vyšší míry redukce tokenů můžete dosáhnout pouhým doladěním LLM na stlačených textových tokenech - existuje více důkazů o tom, že LLM plně nevyužívají velký prostor pro vkládání a obrovské množství výpočetních prostředků, které jdou dovnitř v době odvozování - a to je jediné skutečné poznatek, který byste si měli odnést