A suposição que todos parecem ter hoje é que, neste momento, os custos de inferência estão fortemente subsidiados e, num futuro próximo, eles aumentarão dramaticamente. Acho que esse é possivelmente um modelo mental quebrado, olhando para negócios subsidiados no passado com custos marginais extremamente altos.
Muitos desses modelos não estão a operar com prejuízo por unidade de modelo, mesmo hoje (especialmente se considerarmos o custo de treino como CapEx, que, arguivelmente, é). Acho que o resultado provável é que se tornem muito mais baratos por token e que o número de tokens consumidos cresça exponencialmente.
42