¿Qué es un modelo barato de big bowl, táctico al revés? ¡Las buenas noticias de la implementación local de modelos grandes están aquí! ¡Te traemos el análisis técnico del recién lanzado Kimi-Linear-48B-A3B del Lado Oscuro de la Luna! Comencemos con una versión de oración: este es el modelo de comida rápida barata de tazón grande. 48B-A3B logra un contexto de 1M y luego una atención lineal, lo que ahorra mucha memoria. El consumo de memoria causado por el crecimiento de la longitud del contexto de atención tradicional es exponencial, que es lineal, por lo que este modelo está bien en la CPU. Ya lo estoy descargando y preparándome para agregarlo a mi modelo común local. La mayor incertidumbre en este momento es que no sé cuál es el nivel de recuerdo, voy a descargarlo y llenarlo con algunas novelas, preguntar los detalles de la novela y ver cómo responde el modelo para evaluar el efecto de recuerdo. Si desea ver los resultados, le guste y más de 100 publicarán la evaluación para usted el fin de semana.