Nowe badania dotyczące oceny agentów kodujących za pomocą ciągłej integracji. Agenci kodujący wychodzą poza izolowane poprawki błędów. Jeśli mają przejąć kontrolę nad pipeline'ami CI, potrzebujemy benchmarków, które odzwierciedlają rzeczywistą złożoność utrzymania bazy kodu. Większość dzisiejszych benchmarków agentów kodujących testuje, czy agent potrafi naprawić pojedynczy problem. Ale prawdziwe inżynieria oprogramowania polega na utrzymywaniu całych baz kodu w czasie. SWE-CI ocenia zdolności agentów poprzez przepływy pracy ciągłej integracji: uruchamianie zestawów testowych, wychwytywanie regresji i utrzymywanie jakości kodu w wielu zmianach. Artykuł: Naucz się budować skuteczne agenty AI w naszej akademii: