Benchmarki OCR mają znaczenie, więc w tym blogu @jerryjliu0 analizuje OlmOCR-Bench, jeden z najbardziej wpływowych benchmarków OCR dokumentów. TLDR: to ważny krok w dobrym kierunku, ale nie do końca pokrywa potrzeby związane z przetwarzaniem dokumentów w rzeczywistym świecie. 📊 OlmOCR-Bench obejmuje ponad 1400 PDF-ów z testami binarnymi pass-fail, ale koncentruje się głównie na pracach naukowych (56%), pomijając faktury, formularze i sprawozdania finansowe. 🔍 Testy jednostkowe benchmarku są zbyt ogólne dla złożonych tabel i kolejności odczytu, pomijając scalone komórki, zrozumienie wykresów i globalną strukturę dokumentu. ⚡ Dokładne dopasowanie ciągów w testach tworzy kruchość, gdzie małe różnice w formatowaniu powodują błędy, nawet gdy ekstrakcja jest semantycznie poprawna. 🏗️ Istnieje stronniczość modelu, ponieważ benchmark wykorzystuje Sonnet i Gemini do generowania przypadków testowych, co daje przewagę modelom trenowanym na podobnych wynikach. Nasze wstępne testy pokazują, że LlamaParse błyszczy w głębokim rozumieniu wizualnym figur, diagramów i złożonych dokumentów biznesowych. Przeczytaj analizę Jerry'ego na temat wyzwań związanych z benchmarkami OCR i jak powinno wyglądać ocenianie przetwarzania dokumentów nowej generacji: