什么才叫便宜大碗模型啊,战术后仰。 本地部署大模型的福音来了!给大家带来月之暗面刚发布的 Kimi-Linear-48B-A3B 的技术解析! 先来一句话版本——这才是便宜大碗快餐模型。 48B-A3B 这个水平做到了1M上下文,然后还是线性注意力,非常省内存。传统注意力上下文长度增长带来的内存消耗是指数级的,这个是线性的,所以这个模型在CPU跑都没事。我已经正在下载了,准备加入本地常用模型中。 目前最大的不确定性是不知道召回水平咋样,我准备下载下来给它塞几本小说问问小说细节看看模型回答的咋样来评估召回效果。想看结果的各位精神股东请点赞,超过100给大家周末放出测评。