Os benchmarks de OCR importam, então neste blog @jerryjliu0 analisa o OlmOCR-Bench, um dos benchmarks de OCR de documentos mais influentes. Resumo: é um passo importante na direção certa, mas não cobre totalmente as necessidades reais de análise de documentos. 📊 O OlmOCR-Bench cobre 1400+ PDFs com testes binários de aprovação/reprovação, mas foca fortemente em artigos acadêmicos (56%), além de não apresentar faturas, formulários e demonstrações financeiras 🔍 Os testes unitários do benchmark são grosseiros demais para tabelas complexas e ordem de leitura, falta de células mescladas, compreensão de gráficos e estrutura global de documentos ⚡ A correspondência exata de strings em testes cria fragilidade onde pequenas diferenças de formatação causam falhas, mesmo quando a extração é semanticamente correta 🏗️ Existe viés de modelo já que o benchmark usa Sonnet e Gemini para gerar casos de teste, dando vantagens a modelos treinados em resultados semelhantes Nossos testes preliminares mostram que o LlamaParse se destaca em raciocínio visual profundo em relação a números, diagramas e documentos empresariais complexos. Leia nossa análise do Jerry's sobre os desafios do benchmarking OCR e como deve ser a avaliação de análise de documentos de próxima geração: