موضوع أكثر جدية حول ضجيج DeepSeek-OCR / سوء التفسير الخطير يحدث. 1. فيما يتعلق بتقليل الرمز المميز من خلال تمثيل النص في الصور ، أظهر باحثون من كامبريدج سابقا أن ضغط الرمز المميز الفوري بمعدل 500x ممكن (ACL'25 و Li و Su و Collier). دون استخدام فكرة تحويل النص إلى صور. 2. لا ينبغي أن نعزو نجاح DeepSeek OCR إلى قوة تمثيل الصور. في الوقت نفسه ، لا يوجد شيء خاطئ بشكل أساسي في تمثيل النص مع أي رمز مميز. في الواقع ، يمكنك أن تفعل عكس ما فعله DeepSeek-OCR ، أي أنه يمكنك تمثيل الصور كسلسلة من الرموز المميزة للنص (كل منها يمثل قيم RGB الخاصة به) ، وستعمل الأشياء بشكل جيد. (انظر ورقة LIFT.) 3. الوجبات الجاهزة الصحيحة الوحيدة هي أن مساحات التضمين الحالية التي تستخدمها LLMs هائلة وربما حتى مهدرة للغاية. والأهم من ذلك ، أننا لا نستفيد منها بشكل كامل بعد. 4. هناك الكثير من الأدلة الحديثة التي تدعم نفس الرسالة. على سبيل المثال ، يظهر أنه إذا قمت بتقديم عروض توضيحية في السياق من مهام متعددة ولكنها مختلطة في سياق واحد ، فيمكن لنموذجك حل مهام تنبؤ ICL متعددة في وقت واحد. (انظر ورقة كل شيء في كل مكان في وقت واحد.) 5. TLDR. - DeepSeek-OCR رائع - ولكن يمكنك تحقيق معدل تخفيض أعلى للرمز المميز بمجرد ضبط LLMs على الرموز المميزة للنص المضغوط - هناك المزيد من الأدلة على أن LLMs لا تستخدم بشكل كامل مساحة التضمين الكبيرة والكمية الهائلة من الحوسبة التي تدخل في وقت الاستدلال - وهذا هو الأخذ الحقيقي الوحيد الذي يجب أن تأخذه