Modellbewertung für ein sehr schwieriges Problem, an dem ich arbeite, seufz: Opus verbraucht eine Menge Token, um viele Dinge auszuprobieren, löst es aber letztendlich nicht. Codex: fragt alle 5 Schritte, was ich tun möchte, und tut letztendlich nichts. Gemini 3 Pro: stürzt VS Code ab und verursacht unendliche Schleifen. Letztendlich bleibt Opus der König, das Problem ist nur schlecht.
Um fair zu sein, hat Opus 3-4 Mal versucht, mir zu sagen, dass ich dieses Problem nicht angehen sollte und dass es zu schwierig und komplex war.
270