Tenho algumas reservas em relação à API da OpenAI: Para um utilizador de Linux, já é possível construir um sistema desse tipo de forma bastante trivial, comprando uma caixa 4xH100, instalando-a em casa, instalando o CUDA e o vLLM localmente, e executando o GLM, Kimi ou um modelo de código aberto comparável. Com cargas de trabalho típicas de consumidores, deve-se esperar um TPS mais alto por uma fração do custo.