Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Một chủ đề nghiêm túc hơn về sự cường điệu của DeepSeek-OCR / sự hiểu lầm nghiêm trọng đang diễn ra.
1.
Về việc giảm token thông qua việc đại diện văn bản trong hình ảnh, các nhà nghiên cứu từ Cambridge đã từng chỉ ra rằng việc nén token prompt 500x là khả thi (ACL'25, Li, Su, và Collier).
Mà không sử dụng ý tưởng chuyển đổi văn bản thành hình ảnh.
2.
Chúng ta không nên gán thành công của DeepSeek OCR cho sức mạnh của việc đại diện hình ảnh.
Cùng lúc đó, không có gì sai về mặt cơ bản với việc đại diện văn bản bằng bất kỳ tokenizer nào.
Thực tế, bạn có thể làm điều ngược lại với những gì DeepSeek-OCR đã làm, tức là bạn có thể đại diện hình ảnh như một chuỗi các token văn bản (mỗi token đại diện cho giá trị RGB của chúng), và mọi thứ sẽ hoạt động tốt. (Xem bài báo LIFT.)
3.
Điều duy nhất đúng đắn cần rút ra là các không gian nhúng hiện tại mà các LLM sử dụng chỉ đơn giản là khổng lồ và có thể thậm chí rất lãng phí.
Và quan trọng là, chúng ta vẫn chưa tận dụng hết chúng.
4.
Có nhiều bằng chứng gần đây hỗ trợ thông điệp tương tự.
Ví dụ, có thể thấy rằng nếu bạn cung cấp các ví dụ trong ngữ cảnh từ nhiều nhiệm vụ nhưng trộn lẫn trong một ngữ cảnh duy nhất, thì mô hình của bạn có thể giải quyết nhiều nhiệm vụ dự đoán ICL đồng thời. (Xem bài báo EVERYTHING EVERYWHERE ALL AT ONCE.)
5.
tldr;
- DeepSeek-OCR thật tuyệt
- nhưng bạn có thể đạt được tỷ lệ giảm token cao hơn chỉ bằng cách tinh chỉnh các LLM trên các token văn bản đã được nén
- có nhiều bằng chứng hơn cho thấy các LLM chưa tận dụng hết không gian nhúng lớn và lượng tính toán khổng lồ mà đi vào trong thời gian suy diễn
- và đó là điều duy nhất thực sự bạn nên ghi nhớ.



Hàng đầu
Thứ hạng
Yêu thích

