Model DeepSeek-OCR baru sangat mengesankan, tetapi yang paling menarik adalah kemungkinan menggunakan token visual pada tingkat yang lebih mendasar: Dapatkah model melakukan penalaran langsung di ruang laten visual?
"Meskipun berfokus pada OCR sebagai proof-of-concept, paradigma ini membuka kemungkinan baru untuk memikirkan kembali bagaimana visi dan modalitas bahasa dapat digabungkan secara sinergis untuk meningkatkan efisiensi komputasi dalam pemrosesan teks skala besar dan sistem agen."
Ini mungkin berdampak besar dalam pemrosesan dokumen untuk keuangan, konsultasi, dan bidang terkait. Sebelumnya tabel dan bagan adalah masalah besar bagi model untuk membaca dengan benar. Keterangan: Di bidang laporan penelitian keuangan, mode penguraian mendalam DeepSeek-OCR dapat digunakan untuk mendapatkan hasil terstruktur bagan dalam dokumen. Bagan adalah bentuk penting dari representasi data di bidang keuangan dan ilmiah, dan ekstraksi terstruktur bagan adalah kemampuan yang sangat diperlukan untuk model OCR di masa depan.
7,24K