Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Claude Opus 4.5: full anmeldelse
Dette er den beste modellutgivelsen på veldig, veldig lenge når det gjelder programmering. Det blåser meg av gårde hvor bra det er. Jeg har ikke sett så stor forbedring siden den opprinnelige utgivelsen av GPT-4-0314
Den største forbedringen er at de endelig har funnet ut hvordan de skal 'tenke' riktig.
Den gjør ikke lenger grusomme logiske feil i sin tenkning.
Problemer som «Ok, jeg kjører tester nå. <Tester feiler> Flott! Testene bestått.» er ikke lenger en greie.
Dette generaliserer til i praksis ALL logikk når det gjelder å tenke på kode – den gjør ekstremt sjelden, om noen gang, feil.
Den neste store milepælen: Den skriver ikke lenger slop-kode! Dette er stort. Med Codex kan du få den til å skrive kode som fungerer. Men den skriver forferdelig kode – ubrukelige funksjoner, dårlige abstraksjoner, osv. Dette er kjipt, fordi det fungerer på kort sikt, men på lang sikt vil modellen løpe seg inn i et hjørne hvor den ikke lenger kan fungere med koden den selv har skrevet.
Det er ikke tilfellet med Opus. Den skriver ikke bare elegant kode, men vet også hvordan den skal refaktorere slop-kode til ikke-slop-kode. Den forstår kodebasen grundig og kan finne elegante løsninger som ikke bare er 'mekaniske' refaktoreringer.
Det er veldig autonomt og uavhengig. Den vil, av seg selv, når den støter på problemer, lage minimale reproduserbare eksempler, prøve å dele hvor feilen kommer fra, og så rette den uten å sette seg fast i kaninhull. Selv om feilen ligger i en urelatert del av koden – kode som den ikke engang har skrevet selv!!
Den GJØR OGSÅ AKKURAT DET DU SIER, UTEN Å KUTTE HJØRNER! Dette er stort!! Å bruke Codex er i bunn og grunn et whack-a-mole-spill hvor den forstår hva du vil at den skal gjøre, men det er for vanskelig, så den belønner seg inn i en dårlig løsning du ikke vil ha.
Opus tar faktisk tak i problemet og løser det skikkelig, selv om det er vanskelig.
Den lange kontekstforståelsen er stort sett perfekt. Sammen med komprimeringsmekanismen som er tilgjengelig i Claude Code som standard, kan du i praksis ha en uendelig lang samtale hvor den forstår alt inni seg, uten noen forringelse.
Når det gjelder design, research, å komme opp med nye ideer. Det er bedre, men ikke helt på ekspert-menneske-nivå. Den kan foreslå løsninger jeg vil anse som god design, men den klarer ikke helt å 'tenke med portaler' ennå. Likevel, en god forbedring sammenlignet med det vi hadde før, som i praksis ikke eksisterte.
Alt det ovennevnte har jeg samlet fra testing de siste dagene, hvor oppgaven er å skrive en tolk for et språk vi designet underveis. Det er et veldig nisjedesign, likt Self og Smalltalk, bortsett fra at vi bygger språket inne i selve språket. Dette fører til ekstremt vanskelige situasjoner hvor du prøver å definere hvordan funksjoner fungerer – inne i språket – når du ikke har funksjoner ennå! Og den gjør fortsatt en fantastisk jobb. Noen ganger forstår jeg ikke engang helt hva jeg ber den om å gjøre, men Opus gjør det, og den gjør en god jobb.
TL; DR: Det er Sonett 3.5 fra 2025. Prøv det. Gjør det nå
Topp
Rangering
Favoritter

