Am evaluat multe modele de bază pe evaluări bazate pe perplexitate, iar Kimi k2.5 s-a dovedit a fi cel mai puternic! După aceea, continuăm pre-antrenamentul și un RL de calcul ridicat (un scale-up de 4x). Combinația dintre baza puternică, CPT și RL, și samplerele inference și RL ale Fireworks, fac ca Composer-2 să ajungă la nivel frontier. A fost o greșeală să nu menționăm baza Kimi în blogul nostru încă de la început. Vom rezolva asta pentru următorul model.