Segundo investigador en una semana señalando que los Tau2 Benchs de @SierraPlatform tienen grandes fallos; en teoría, si verificas todo manualmente, la puntuación máxima es 75 en Taubench y 95 en Taubench retail. me pregunto si los autores de Taubench ya han respondido a esto, porque se ha convertido en una evaluación de agente bastante cargadora y probablemente deberíamos comprobarlo dos veces