DApp Store | Web3 Hub for hendelser og spill

Populære emner

Jeg vil påpeke at for de virkelige oppgavene (ikke benchmarks), overgår Kimi K2 Gemini. Dette er telemetri på tvers av alle @cline brukere, og viser feilfrekvens for diffredigering. Legg merke til hvordan Kimi har omtrent 6 % feilrate, som er betydelig bedre enn Geminis ~ 10 % feilrate. Bemerkelsesverdig nok overgikk Kimi til og med Claude 4 i det meste av denne uken, og oppnådde en feilrate på under 4 %!

I vår interne «Hard» diff-redigeringsreferanse for tilfeller der en frontier-modell tidligere mislyktes i en diff-redigering (før våre diff-algoritmeoppdateringer), overgikk Kimi Claude 3.5. Blir interessant å se resultatene fra våre "Nightmare Difficulty"-benchmarks i løpet av de neste ukene.

157,21K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til