A equipa de agentes de IA da OPPO questiona quão longe estamos de agentes de pesquisa profunda verdadeiramente úteis. Apresentando o FINDER, um novo benchmark com 100 tarefas de pesquisa curadas por humanos, e o DEFT, a primeira taxonomia de falhas para agentes de pesquisa profunda.