Tým agentů OPPO AI se ptá, jak daleko jsme od skutečně užitečných agentů hlubokého výzkumu Představujeme FINDER, nový benchmark se 100 úkoly kurátorsky vybranými lidmi, a DEFT, první taxonomii neúspěchů pro agenty hlubokého výzkumu.