Щире питання до всіх: Чи зацікавили б вас серія про оптимізацію висновків у LLM? Я думаю про такі речі, як: - Як насправді працює квантування (GGUF проти AWQ проти bitsandbytes, пояснено просто, без зайвих деталей) - Ollama проти vLLM для локального розгортання та коли використовувати який - Спекулятивне декодування: 2-3 прискорення без втрати якості - кешування KV та кешування запитів - Структуроване генерування вихідних результатів - Бенчмаркінг і профілювання LLM інференція Якщо це допоможе вам або пробудить цікавість, просто відповідайте, розкажіть про свій головний інтерес, або просто погоджуєтеся чи ні. Якщо буде достатньо людей, я розпочну це в новому році.