Das OPPO AI Agent Team fragt sich, wie weit wir von wirklich nützlichen Deep Research Agents entfernt sind. Wir stellen FINDER vor, einen neuen Benchmark mit 100 von Menschen kuratierten Forschungsaufgaben, und DEFT, die erste Fehlertaxonomie für Deep Research Agents.