正在開發新的開源Grok 2.5! 我們已經能夠對其進行熱處理!! 現在還處於早期階段,可能會失敗,但我們所擁有的是: 一個268B的MoE,131k的上下文,8個專家,RoPE,64個GQA注意力頭和8個KV頭,64層。 通常情況下,任何時刻只有2個專家處於活動狀態。我們找到了一種方法,可以同時激活4個專家,性能僅略有下降,大約需要多1/3的GPU內存,並且輸出質量顯著提高! 如果它能通過我們的測試,我將發布詳細的操作指南!