Jeg vil påpeke at for de virkelige oppgavene (ikke benchmarks), overgår Kimi K2 Gemini. Dette er telemetri på tvers av alle @cline brukere, og viser feilfrekvens for diffredigering. Legg merke til hvordan Kimi har omtrent 6 % feilrate, som er betydelig bedre enn Geminis ~ 10 % feilrate. Bemerkelsesverdig nok overgikk Kimi til og med Claude 4 i det meste av denne uken, og oppnådde en feilrate på under 4 %!
Paul Gauthier
Paul Gauthier18. juli, 19:09
Kimi K2 scoret 59 % på referanseindeksen for flerspråklig koding. Full ledertavle:
I vår interne «Hard» diff-redigeringsreferanse for tilfeller der en frontier-modell tidligere mislyktes i en diff-redigering (før våre diff-algoritmeoppdateringer), overgikk Kimi Claude 3.5. Blir interessant å se resultatene fra våre "Nightmare Difficulty"-benchmarks i løpet av de neste ukene.
157,21K