Agenții de codare AI scriu efectiv teste? Testarea este esențială pentru corectitudinea și mentenarea software-ului. Pe măsură ce agenții autonomi trimit tot mai des pull request-uri, înțelegerea comportamentului lor de testare devine esențială. Această nouă cercetare analizează setul de date AIDev pentru a studia tiparele de includere a testelor în pull request-urile generate de agenți. Au examinat cât de des apar testele, când sunt introduse în timpul ciclului de viață al PR-ului și cum diferă PR-urile care conțin teste de cele fără teste. Rezultatele dezvăluie tipare interesante. PR-urile care conțin teste au devenit mai frecvente în timp între agenți, sugerând un comportament îmbunătățit al testării. Dar aceste PR-uri tind să fie mai mari și să dureze mai mult să fie finalizate decât cele non-test. Ratele de fuziune rămân în mare parte similare indiferent de includerea testelor. Acest lucru ridică întrebări dacă evaluatorii apreciază testele generate de agenți sau pur și simplu nu penalizează absența lor. Această lucrare evidențiază variații semnificative între diferiți agenți. Unii agenți prezintă rate mai mari de adoptare a testelor decât alții. Echilibrul dintre codul de test și codul de producție în cadrul PR-urilor care conțin teste variază de asemenea substanțial în funcție de agent. Acest lucru sugerează că capacitatea de testare nu este dezvoltată uniform între instrumentele de codare agentică. Unii sunt mai buni la respectarea convențiilor de testare decât alții. Pe măsură ce companiile adoptă agenți de codare AI, înțelegerea comportamentului lor de testare este crucială pentru calitatea codului. Agenții care sar peste teste sau scriu teste inadecvate creează datorii tehnice. Această bază empirică ajută la identificarea agenților care se aliniază cu bune practici de inginerie software și unde sunt necesare îmbunătățiri. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: