我們與 @GoogleResearch 開發了 FACTS 基準套件。 📊 這是業界首個全面測試,評估 LLM 的事實性,涵蓋四個維度:內部模型知識、網頁搜索、基礎資料和多模態輸入。