En nuestra nueva investigación, presentamos AutoJudge: un método de aceleración de inferencias que aprende qué tokens son importantes para la respuesta. ¿El resultado? Aceleraciones de 1.5-2x en comparación con la decodificación especulativa, y ganancias constantes cuando se combina con técnicas avanzadas. 🚀
Además, lee el hilo con detalles de los autores del artículo:
Max Ryabinin
Max Ryabinin5 dic, 02:02
¡Emocionado de compartir nuestra investigación reciente sobre AutoJudge, una técnica de decodificación que combina: - Aceleración de la inferencia mediante la relajación de la restricción de coincidencia de distribución - Facilidad de uso y escalabilidad gracias a un protocolo de entrenamiento auto-supervisado ¡Presentando en #NeurIPS2025 hoy! (1/9)
Los autores presentarán AutoJudge en #NeurIPS2025 en San Diego. ¡Conoce al equipo y aprende más sobre el enfoque! 🕑4 de diciembre, 4:30 PM PST 🗺️Sala de Exposiciones C,D,E #2010
2,26K