1/ LLMs a julgar outros LLMs parece eficiente… até que você pergunte quem define as regras. O viés, as sugestões e os efeitos dos fornecedores surgem rapidamente.
2/ Na Inference Labs, acreditamos que a avaliação em si deve ser verificável. Se a IA está a julgar a IA, precisamos de prova criptográfica, não de métricas de confiança.
88