Unsere Freunde von @silverstreamAI haben kürzlich ein offenes Protokoll für Agenten-Benchmarks gestartet, das Evaluierungen portabel, beobachtbar und vergleichbar über Systeme hinweg macht. Bessere Evaluierungen + Ironclaw-Sicherheitsgarantien = Agenten, denen man tatsächlich vertrauen kann!