Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Щире питання до всіх:
Чи зацікавили б вас серія про оптимізацію висновків у LLM?
Я думаю про такі речі, як:
- Як насправді працює квантування (GGUF проти AWQ проти bitsandbytes, пояснено просто, без зайвих деталей)
- Ollama проти vLLM для локального розгортання та коли використовувати який
- Спекулятивне декодування: 2-3 прискорення без втрати якості
- кешування KV та кешування запитів
- Структуроване генерування вихідних результатів
- Бенчмаркінг і профілювання LLM інференція
Якщо це допоможе вам або пробудить цікавість, просто відповідайте, розкажіть про свій головний інтерес, або просто погоджуєтеся чи ні.
Якщо буде достатньо людей, я розпочну це в новому році.
Найкращі
Рейтинг
Вибране
