Esto es enorme. Entrena los LLMs 3× más rápido sin perder precisión. Unsloth acaba de lanzar nuevos núcleos de Triton + autoempaquetado que cambia completamente el ajuste fino del juego. Aquí está la razón por la que esto importa: Ahora puedes afinar Qwen3-4B con solo 3GB de VRAM. Eso es una GPU de consumo. Tu GPU. El nuevo lanzamiento incluye: ↳ Núcleo QK RoPE fusionado que es 2,3 veces más rápido en contextos largos ↳ Empaquetado inteligente sin relleno activado por defecto ↳ Funciona con FlashAttention 3, xFormer y SDPA ↳ 30-90% menos de uso de VRAM Las matemáticas detrás de esto son elegantes: Los conjuntos de datos reales tienen longitudes de secuencia variables. Rellenar secuencias cortas para que coincidan con las largas desperdicia cálculo. Si el 80% de tus secuencias son cortas, el empaquetado te da 5 veces más de velocidad al eliminar ese desperdicio por completo. La barrera para el ajuste fino local sigue bajando. Estamos pasando de "quién puede permitirse computación en la nube" a "quién puede iterar más rápido en sus propias GPUs". Para empezar, he compartido un enlace al blog y a los cuadernos de inicio en el próximo tuit.