Ми розробили набір бенчмарків FACTS разом із @GoogleResearch. 📊 Це перший у галузі комплексний тест, що оцінює фактичність LLM за чотирма вимірами: знання внутрішньої моделі, веб-пошук, заземлення та мультимодальні вхідні дані.