Pregunta genuina para todos aquí: ¿Te interesaría una serie sobre Optimización de Inferencia LLM? Estoy pensando en cosas como: - Cómo funciona realmente la cuantización (GGUF vs AWQ vs bitsandbytes, explicado de forma sencilla, sin relleno) - Ollama vs vLLM para despliegue local y cuándo usar cuál - Decodificación especulativa: aceleraciones 2-3x sin perder calidad - Caché KV y caché de prompts - Generación de salida estructurada - Comparación y perfilado de inferencia LLM Si esto te ayuda o despierta tu curiosidad, simplemente responde diciéndome cuál es tu principal interés, o simplemente si estás de acuerdo o en desacuerdo con esta idea. Si hay suficiente gente, empezaré con esto en el año nuevo.