Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowe badania dotyczące oceny agentów kodujących za pomocą ciągłej integracji.
Agenci kodujący wychodzą poza izolowane poprawki błędów.
Jeśli mają przejąć kontrolę nad pipeline'ami CI, potrzebujemy benchmarków, które odzwierciedlają rzeczywistą złożoność utrzymania bazy kodu.
Większość dzisiejszych benchmarków agentów kodujących testuje, czy agent potrafi naprawić pojedynczy problem. Ale prawdziwe inżynieria oprogramowania polega na utrzymywaniu całych baz kodu w czasie.
SWE-CI ocenia zdolności agentów poprzez przepływy pracy ciągłej integracji: uruchamianie zestawów testowych, wychwytywanie regresji i utrzymywanie jakości kodu w wielu zmianach.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

Najlepsze
Ranking
Ulubione
