deuxième chercheur en une semaine signalant que les Tau2 Benchs de @SierraPlatform ont d'énormes défauts - en théorie, si vous vérifiez manuellement tout, le score maximum est de 75 dans Taubench airline et de 95 dans Taubench retail. je me demande si les auteurs de Taubench ont déjà répondu à cela, car cela devient une évaluation d'agent porteur assez importante et nous devrions probablement le vérifier.