Alguém realmente fez um estudo decente sobre a entrega de cuidados no mundo real que poderia servir como uma linha de base para avaliar LLMs na prestação de cuidados? O comportamento da maioria dos prestadores tem pouco a ver com as diretrizes estabelecidas ou um padrão idealizado de cuidados, então isso não deveria ser a linha de base.