Pergunta genuína para todos aqui: Você teria interesse em uma série sobre Otimização de Inferência em LLM? Estou pensando em coisas como: - Como a quantização realmente funciona (GGUF vs AWQ vs bitsandbytes, explicado simples, sem enrolação) - Ollama vs vLLM para implantação local e quando usar qual - Decodificação especulativa: acelerações de 2 a 3x sem perder qualidade - Cache KV e cache de prompts - Geração estruturada de saída - Benchmarking e perfilamento da inferência de LLMs Se isso ajudar você ou despertar sua curiosidade, apenas responda dizendo seu principal interesse, ou apenas se concorda ou discorda dessa ideia. Se houver pessoas suficientes, começo isso no ano novo.