OCR benchmarky jsou důležité, proto v tomto blogu @jerryjliu0 analyzujeme OlmOCR-Bench, jeden z nejvlivnějších dokumentů pro OCR benchmarky. Stručně: je to důležitý krok správným směrem, ale nepokrývá to reálné potřeby parsování dokumentů. 📊 OlmOCR-Bench pokrývá 1400+ PDF s binárními testy úspěšnosti-neúspěchu, ale silně se zaměřuje na akademické práce (56 %), přičemž chybí faktury, formuláře a finanční výkazy 🔍 Jednotkové testy benchmarku jsou příliš hrubé pro složité tabulky a pořadí čtení, chybí sloučené buňky, porozumění grafům a globální struktura dokumentu ⚡ Přesné porovnání řetězců v testech vytváří křehkost tam, kde malé rozdíly ve formátování způsobují selhání, i když je extrakce sémanticky správná 🏗️ Modelová zaujatost existuje, protože benchmark používá Sonnet a Gemini k generování testovacích případů, což dává výhody modelům trénovaným na podobných výstupech Naše předběžné testy ukazují, že LlamaParse vyniká v hlubokém vizuálním uvažování nad obrázky, diagramy a složitými obchodními dokumenty. Přečtěte si naši analýzu Jerry's o výzvách OCR benchmarkingu a o tom, jak by mělo vypadat hodnocení analýzy dokumentů nové generace: