I benchmark OCR sono importanti, quindi in questo blog @jerryjliu0 analizza OlmOCR-Bench, uno dei benchmark OCR per documenti più influenti. TLDR: è un passo importante nella giusta direzione, ma non copre completamente le esigenze di parsing dei documenti nel mondo reale. 📊 OlmOCR-Bench copre oltre 1400 PDF con test binari di pass-fail, ma si concentra pesantemente su articoli accademici (56%) trascurando fatture, moduli e bilanci finanziari. 🔍 I test unitari del benchmark sono troppo grossolani per tabelle complesse e ordine di lettura, mancando celle unite, comprensione dei grafici e struttura globale del documento. ⚡ Il matching esatto delle stringhe nei test crea fragilità dove piccole differenze di formattazione causano fallimenti, anche quando l'estrazione è semanticamente corretta. 🏗️ Esiste un bias del modello poiché il benchmark utilizza Sonnet e Gemini per generare casi di test, dando vantaggi ai modelli addestrati su output simili. I nostri test preliminari mostrano che LlamaParse eccelle nel ragionamento visivo profondo su figure, diagrammi e documenti aziendali complessi. Leggi l'analisi di Jerry sulle sfide del benchmarking OCR e come dovrebbe apparire la valutazione del parsing dei documenti di nuova generazione: