Більш серйозна тема про хайп DeepSeek-OCR / серйозне неправильне тлумачення. 1. Що стосується зменшення токенів за допомогою представлення тексту на зображеннях, дослідники з Кембриджа раніше показали, що можливе 500-кратне стиснення токенів (ACL'25, Li, Su та Collier). Без використання ідеї перетворення тексту в зображення. 2. Ми не повинні пов'язувати успіх DeepSeek OCR з потужністю представлення зображень. У той же час, немає нічого принципово поганого в представленні тексту за допомогою будь-якого токенізатора. Насправді, ви можете зробити протилежне тому, що зробив DeepSeek-OCR, тобто ви можете представити зображення у вигляді послідовності текстових токенів (кожен з яких представляє свої значення RGB), і все просто працюватиме нормально. (Див. документ LIFT). 3. Єдиний правильний висновок полягає в тому, що нинішні простори для вбудовування, які використовуються LLM, просто величезні і, можливо, навіть дуже марнотратні. І, що важливо, ми ще не використовуємо їх повною мірою. 4. Є багато свіжих доказів, що підтверджують ту саму думку. Наприклад, показано, що якщо ви надаєте в контексті демонстрації з декількох завдань, але змішані в одному контексті, то ваша модель може вирішувати кілька завдань прогнозування ICL одночасно. (Див. документ «ВСЕ СКРІЗЬ І ОДРАЗУ».) 5. грн.; - DeepSeek-OCR – це круто - але ви можете досягти вищої швидкості зниження токенів, просто налаштувавши LLM на стислих текстових токенах - існує більше доказів того, що LLM не повністю використовують великий простір для вкладення та величезну кількість обчислень, які надходять під час висновків. - і це єдиний реальний висновок, який ви повинні забрати