Studio interessante. Molti commenti sui modelli obsoleti sembrano perdere di vista il punto: i modelli erano sufficienti da soli per il benchmarking, ma non riuscivano a spingere gli utenti umani reali a descrivere accuratamente le loro condizioni.