Il team di agenti AI di OPPO si chiede quanto siamo lontani da agenti di ricerca profonda veramente utili. Presentiamo FINDER, un nuovo benchmark con 100 compiti di ricerca curati da esseri umani, e DEFT, la prima tassonomia dei fallimenti per agenti di ricerca profonda.