Bra artikel om hierarkin av agentiska förmågor och hur olika modeller klarade sig i en verklig miljö @HelloSurgeAI testade dem på