Os casos de uso de IA na vanguarda provavelmente usam 100X ou mais tokens do que os casos de uso na vanguarda usavam há um ano. Já estamos a ver a explosão de agentes de codificação que realizam projetos muito mais complexos e de longa duração, o que já está a consumir uma quantidade insana de capacidade de inferência. E isso é uma pequena porcentagem do trabalho de conhecimento total. Esta mesma arquitetura está prestes a chegar ao resto do trabalho de conhecimento, onde os agentes terão efetivamente o seu próprio computador para trabalhar e a capacidade de escrever e executar código para muitas tarefas, e vasculhar montanhas de dados para realizar o seu trabalho. O uso de tokens para esses agentes será insano. Está prestes a ficar muito interessante no mundo da inferência.