Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Utas yang lebih serius tentang hype DeepSeek-OCR / salah tafsir serius yang terjadi.
1.
Pada pengurangan token melalui merepresentasikan teks dalam gambar, para peneliti dari Cambridge sebelumnya telah menunjukkan bahwa kompresi token prompt 500x dimungkinkan (ACL'25, Li, Su, dan Collier).
Tanpa menggunakan ide untuk mengubah teks menjadi gambar.
2.
Kita tidak boleh mengaitkan keberhasilan OCR DeepSeek dengan kekuatan representasi gambar.
Pada saat yang sama, tidak ada yang salah secara mendasar dengan representasi teks dengan tokenizer apa pun.
Faktanya, Anda dapat melakukan kebalikan dari apa yang dilakukan DeepSeek-OCR, yaitu, Anda dapat mewakili gambar sebagai urutan token teks (masing-masing mewakili nilai RGB-nya), dan semuanya akan berfungsi dengan baik. (Lihat makalah LIFT.)
3.
Satu-satunya kesimpulan yang benar adalah bahwa ruang penyematan saat ini yang digunakan oleh LLM sangat besar dan bahkan mungkin sangat boros.
Dan yang terpenting, kami belum memanfaatkannya sepenuhnya.
4.
Ada banyak bukti terbaru yang mendukung pesan yang sama.
Misalnya, ditunjukkan bahwa jika Anda memberikan demonstrasi konteks dari beberapa tugas tetapi dicampur dalam satu konteks, maka model Anda dapat menyelesaikan beberapa tugas prediksi ICL secara bersamaan. (Lihat makalah EVERYTHING EVERYWHERE ALL AT ONCE.)
5.
tldr;
- DeepSeek-OCR keren
- tetapi Anda dapat mencapai tingkat pengurangan token yang lebih tinggi hanya dengan menyempurnakan LLM pada token teks yang diperas
- ada lebih banyak bukti bahwa LLM tidak sepenuhnya memanfaatkan ruang penyematan yang besar dan sejumlah besar komputasi yang masuk pada waktu inferensi
- dan itulah satu-satunya hal nyata yang harus Anda ambil



Teratas
Peringkat
Favorit

