imagine que está a tentar resolver um problema. vamos escolher um ao acaso: acidentes de carro! agora, este é um problema difícil de resolver porque são extraordinariamente raros. dentro do contexto do sistema de infraestrutura rodoviária dos EUA e das regras de condução culturalmente estabelecidas, os humanos são bastante bons. um acidente a cada 700 mil milhas; 5 noves! imagine que, para "resolver/compreender" um acidente computacionalmente, precisa observar esse tipo particular de acidente cerca de 100 vezes. crie uma taxonomia de acidentes, talvez haja 10 tipos de acidentes prototípicos frequentes que precisa estudar e entender, o 10º tipo de acidente mais frequente provavelmente ocorre aproximadamente 1/10 da frequência do tipo de acidente mais frequente, 3-4% dos acidentes podem cair nesta 10ª categoria mais frequente. Portanto, você só testemunhará o 10º tipo de acidente mais frequente a cada 20 milhões de milhas. Mas você precisa de 100 incidentes desse 10º tipo de acidente mais frequente para compreendê-lo: 2 bilhões de milhas. Você precisa de acesso aos 2 bilhões de milhas de dados para capturar a meia hora de dados que informa sua abordagem a esse 10º tipo de acidente mais frequente. Não é o volume bruto de dados coletados que importa, é o valor de opção que esses dados oferecem. (a realidade é muito mais complexa do que isso, obviamente, não menos porque resolver acidentes é mais do que apenas resolver acidentes, é a gramática incrivelmente complexa do uso e navegação nas estradas que resulta em uma condução defensiva sólida que resulta em viagens autônomas seguras. No entanto, acho que a matemática é útil para ilustrar; ter a opção de consultar uma frota para um problema específico em que está a trabalhar é um superpoder)