OCR-benchmarks er viktige, så i denne bloggen analyserer @jerryjliu0 OlmOCR-Bench, en av de mest innflytelsesrike dokument-OCR-benchmarkene. TLDR: det er et viktig steg i riktig retning, men dekker ikke helt behovet for dokumentparsing i den virkelige verden. 📊 OlmOCR-Bench dekker 1400+ PDF-er med binære bestått/ikke bestått-tester, men fokuserer sterkt på akademiske artikler (56 %) samtidig som fakturaer, skjemaer og regnskap mangler 🔍 Benchmarkens enhetstester er for grove for komplekse tabeller og leserekkefølge, mangler sammenslåtte celler, kartforståelse og global dokumentstruktur ⚡ Eksakt strengmatching i tester skaper sprøhet der små formateringsforskjeller fører til feil, selv når ekstraksjonen er semantisk korrekt 🏗️ Modellbias eksisterer siden benchmarken bruker Sonnet og Gemini for å generere testtilfeller, noe som gir fordeler til modeller trent på lignende utganger Våre foreløpige tester viser at LlamaParse utmerker seg i dyp visuell resonnering over tall, diagrammer og komplekse forretningsdokumenter. Les vår Jerry's-analyse av utfordringer med OCR-benchmarking og hvordan evaluering av neste generasjons dokumentparsing bør se ut: