Agenci AI zaczynają przeprowadzać prawdziwą analizę biologiczną: inspekcja zbiorów danych, uruchamianie procesów obliczeniowych i produkcja wartościowych wyników badań. W miarę jak AI w nauce zbliża się do praktycznego zastosowania w laboratoriach, pytanie o to, jak skutecznie oceniać agentów biologicznych, staje się coraz ważniejsze. BixBench Verified 50 to starannie dobrana lista pytań do oceny agentów biologicznych w różnych dziedzinach bioinformatyki. Testowaliśmy BIOS AI Scientist na BixBench Verified 50 obok ogólnych i specyficznych dla dziedziny agentów AI. BIOS prowadził z dokładnością 90% razem z K-Dense. Za nimi: > Biomni Labs - 88,7% > Edison Scientific - 78,0% > Claude - 65,3% & > OpenAI Agents SDK - 61,3% Zobacz pełne wyniki: Jedna kluczowa uwaga: ocena agentów biologicznych to nie tylko kwestia tego, czy proces analizy działa poprawnie. W jednym z zadań benchmarkowych agent obliczył poprawne korelacje, ale błędnie zinterpretował biologiczne znaczenie kolumny zbioru danych. Wynik: numerycznie poprawna analiza, ale biologicznie błędne wnioski. W miarę jak agenci biologiczni przechodzą z kontrolowanych benchmarków do rzeczywistych środowisk naukowych, musimy oceniać proces pracy, założenia i rozumowanie, a nie tylko to, czy ostateczna odpowiedź jest numerycznie poprawna. Przeczytaj więcej w naszym wpisie na blogu: