Interessant studie. Mange kommentarer om utdaterte modeller ser ut til å bomme på poenget: modellene var tilstrekkelige på egenhånd i benchmarking, men kunne ikke få ekte menneskelige brukere til å beskrive sine tilstander nøyaktig.