meer dan 500 modellen getest dit jaar, een AI-product verzendend met +6k gebruikers. geobserveerd: 1. chat bereikt een plafond 2. modeloorlogen maken oudere modellen verouderd 3. open source is beter voor bouwers 4. evaluaties moeten taakuitvoering meten 5. context is belangrijker dan verbeterde redenering