Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pergunta genuína para todos aqui:
Estariam interessados numa série sobre Otimização de Inferência de LLM?
Estou a pensar em coisas como:
- Como a quantização realmente funciona (GGUF vs AWQ vs bitsandbytes, explicado de forma simples, sem enrolação)
- Ollama vs vLLM para implementação local e quando usar qual
- Decodificação especulativa: aumentos de 2-3x na velocidade sem perder qualidade
- Cache KV e cache de prompt
- Geração de saída estruturada
- Benchmarking e perfilagem da inferência de LLM
Se isso vos ajudaria ou despertasse a vossa curiosidade, apenas respondam dizendo qual é o vosso principal interesse, ou apenas se concordam ou discordam desta ideia.
Se houver pessoas suficientes, vou iniciar isto no novo ano.
Top
Classificação
Favoritos
