Бенчмарки OCR имеют значение, поэтому в этом блоге @jerryjliu0 анализирует OlmOCR-Bench, один из самых влиятельных бенчмарков OCR для документов. Кратко: это важный шаг в правильном направлении, но он не совсем покрывает потребности реального парсинга документов. 📊 OlmOCR-Bench охватывает более 1400 PDF-документов с бинарными тестами на прохождение, но в основном сосредоточен на научных статьях (56%), упуская счета, формы и финансовые отчеты. 🔍 Модульные тесты бенчмарка слишком грубы для сложных таблиц и порядка чтения, упуская объединенные ячейки, понимание диаграмм и глобальную структуру документа. ⚡ Точное сопоставление строк в тестах создает хрупкость, когда небольшие различия в форматировании приводят к сбоям, даже если извлечение семантически корректно. 🏗️ Существует предвзятость модели, поскольку бенчмарк использует Sonnet и Gemini для генерации тестовых случаев, что дает преимущества моделям, обученным на аналогичных выходных данных. Наши предварительные тесты показывают, что LlamaParse отлично справляется с глубоким визуальным анализом фигур, диаграмм и сложных бизнес-документов. Читайте анализ Джерри о проблемах бенчмаркинга OCR и о том, как должен выглядеть парсинг документов следующего поколения: