Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg vil påpeke at for de virkelige oppgavene (ikke benchmarks), overgår Kimi K2 Gemini.
Dette er telemetri på tvers av alle @cline brukere, og viser feilfrekvens for diffredigering. Legg merke til hvordan Kimi har omtrent 6 % feilrate, som er betydelig bedre enn Geminis ~ 10 % feilrate.
Bemerkelsesverdig nok overgikk Kimi til og med Claude 4 i det meste av denne uken, og oppnådde en feilrate på under 4 %!

I vår interne «Hard» diff-redigeringsreferanse for tilfeller der en frontier-modell tidligere mislyktes i en diff-redigering (før våre diff-algoritmeoppdateringer), overgikk Kimi Claude 3.5.
Blir interessant å se resultatene fra våre "Nightmare Difficulty"-benchmarks i løpet av de neste ukene.

157,21K
Topp
Rangering
Favoritter