المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
موضوع أكثر جدية حول ضجيج DeepSeek-OCR / سوء التفسير الخطير يحدث.
1.
فيما يتعلق بتقليل الرمز المميز من خلال تمثيل النص في الصور ، أظهر باحثون من كامبريدج سابقا أن ضغط الرمز المميز الفوري بمعدل 500x ممكن (ACL'25 و Li و Su و Collier).
دون استخدام فكرة تحويل النص إلى صور.
2.
لا ينبغي أن نعزو نجاح DeepSeek OCR إلى قوة تمثيل الصور.
في الوقت نفسه ، لا يوجد شيء خاطئ بشكل أساسي في تمثيل النص مع أي رمز مميز.
في الواقع ، يمكنك أن تفعل عكس ما فعله DeepSeek-OCR ، أي أنه يمكنك تمثيل الصور كسلسلة من الرموز المميزة للنص (كل منها يمثل قيم RGB الخاصة به) ، وستعمل الأشياء بشكل جيد. (انظر ورقة LIFT.)
3.
الوجبات الجاهزة الصحيحة الوحيدة هي أن مساحات التضمين الحالية التي تستخدمها LLMs هائلة وربما حتى مهدرة للغاية.
والأهم من ذلك ، أننا لا نستفيد منها بشكل كامل بعد.
4.
هناك الكثير من الأدلة الحديثة التي تدعم نفس الرسالة.
على سبيل المثال ، يظهر أنه إذا قمت بتقديم عروض توضيحية في السياق من مهام متعددة ولكنها مختلطة في سياق واحد ، فيمكن لنموذجك حل مهام تنبؤ ICL متعددة في وقت واحد. (انظر ورقة كل شيء في كل مكان في وقت واحد.)
5.
TLDR.
- DeepSeek-OCR رائع
- ولكن يمكنك تحقيق معدل تخفيض أعلى للرمز المميز بمجرد ضبط LLMs على الرموز المميزة للنص المضغوط
- هناك المزيد من الأدلة على أن LLMs لا تستخدم بشكل كامل مساحة التضمين الكبيرة والكمية الهائلة من الحوسبة التي تدخل في وقت الاستدلال
- وهذا هو الأخذ الحقيقي الوحيد الذي يجب أن تأخذه



الأفضل
المُتصدِّرة
التطبيقات المفضلة

