Os benchmarks de OCR são importantes, por isso, neste blog, @jerryjliu0 analisa o OlmOCR-Bench, um dos benchmarks de OCR de documentos mais influentes. Resumo: é um passo importante na direção certa, mas não cobre totalmente as necessidades de análise de documentos do mundo real. 📊 O OlmOCR-Bench cobre mais de 1400 PDFs com testes binários de aprovação e reprovação, mas foca fortemente em artigos acadêmicos (56%), enquanto deixa de fora faturas, formulários e demonstrações financeiras. 🔍 Os testes unitários do benchmark são muito grosseiros para tabelas complexas e ordem de leitura, deixando de lado células mescladas, compreensão de gráficos e estrutura global do documento. ⚡ A correspondência exata de strings nos testes cria fragilidade, onde pequenas diferenças de formatação causam falhas, mesmo quando a extração é semanticamente correta. 🏗️ Existe viés no modelo, uma vez que o benchmark utiliza Sonnet e Gemini para gerar casos de teste, dando vantagens a modelos treinados em saídas semelhantes. Nossos testes preliminares mostram que o LlamaParse se destaca em raciocínio visual profundo sobre figuras, diagramas e documentos empresariais complexos. Leia a análise do Jerry sobre os desafios de benchmarking de OCR e como a avaliação de análise de documentos de próxima geração deve ser: