Estudo interessante. Muitos comentários sobre modelos desatualizados parecem perder o ponto: os modelos eram suficientes por si sós em benchmarking, mas não conseguiam levar usuários humanos reais a descrever com precisão suas condições.