Interesante estudio. Muchos comentarios sobre modelos obsoletos parecen no captar el punto: los modelos eran suficientes por sí solos en el benchmarking, pero no podían motivar a usuarios humanos reales a describir con precisión sus condiciones.