Die Arbeit an der Bewertung basierend auf realen Spuren und die Unterstützung von @langfuse @braintrustdata und Langsmith von @LangChainAI war super spannend. Wir möchten Entwicklern helfen, das zu bewerten, was tatsächlich wichtig ist, und nicht irgendeinen akademischen Standalone-Benchmark.