Pergunta genuína para todos aqui: Estariam interessados numa série sobre Otimização de Inferência de LLM? Estou a pensar em coisas como: - Como a quantização realmente funciona (GGUF vs AWQ vs bitsandbytes, explicado de forma simples, sem enrolação) - Ollama vs vLLM para implementação local e quando usar qual - Decodificação especulativa: aumentos de 2-3x na velocidade sem perder qualidade - Cache KV e cache de prompt - Geração de saída estruturada - Benchmarking e perfilagem da inferência de LLM Se isso vos ajudaria ou despertasse a vossa curiosidade, apenas respondam dizendo qual é o vosso principal interesse, ou apenas se concordam ou discordam desta ideia. Se houver pessoas suficientes, vou iniciar isto no novo ano.