Бенчмарки OCR мають значення, тому в цьому блозі @jerryjliu0 аналізує OlmOCR-Bench — один із найвпливовіших бенчмарків OCR у документах. Коротко: це важливий крок у правильному напрямку, але він не зовсім охоплює реальні потреби у парсінгу документів. 📊 OlmOCR-Bench охоплює 1400+ PDF з бінарними тестами на захід-провал, але основна увага зосереджена на академічних роботах (56%), при цьому відсутні рахунки, форми та фінансові звіти 🔍 Юніт-тести бенчмарку надто грубі для складних таблиць і порядку читання, відсутні об'єднані клітинки, розуміння діаграми та глобальна структура документа ⚡ Точне узгодження рядків у тестах створює крихкість там, де невеликі відмінності у форматуванні спричиняють відмови, навіть якщо вилучення семантично правильне 🏗️ Зсув моделі існує оскільки бенчмарк використовує Sonnet і Gemini для генерації тестових випадків, що дає переваги моделям, навченим на схожих результатах Наші попередні тести показують, що LlamaParse блискуче у глибокому візуальному мисленні над цифрами, діаграмами та складними бізнес-документами. Прочитайте наш аналіз Jerry's щодо викликів бенчмаркінгу OCR та того, як має виглядати оцінка парсингу документів наступного покоління: