Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mamy fundamentalny problem z tym, jak oceniamy AI w nauce.
Obecne benchmarki testują izolowane zdolności - Czy AI potrafi analizować dane? Generować hipotezy? Projektować eksperymenty?
Ale tak nie działa prawdziwe badanie 🧵

Właśnie opublikowaliśmy preprint proponujący nowy sposób oceny naukowców AI jako współpilotów badań, a nie izolowanych wykonawców zadań.
Wnioski kierują naszą przebudową BioAgents w najlepsze na świecie agenty naukowe.
Przeczytaj artykuł na @arxiv:

Główny problem, który postanowiliśmy rozwiązać: obecne benchmarki AI dla nauki nie odzwierciedlają rzeczywistych procesów pracy badaczy biomedycznych.
Przykład: postdoktorant analizuje dane genetyczne w poniedziałek, udoskonala hipotezy we wtorek, dostosowuje protokoły w czwartek na podstawie zrewidowanych budżetów, a następnie integruje wszystko w propozycji w przyszłym tygodniu.
Obecne benchmarki testują osobno:
* Jakość analizy danych ✓
* Ważność hipotez ✓
* Projektowanie protokołów ✓
Ale żaden z nich nie ocenia, czy AI zapamiętało hipotezę z wtorku przy projektowaniu eksperymentów w czwartek, ani czy ograniczenie budżetowe z czwartku miało wpływ na propozycję z poniedziałku.

W przeglądzie ponad 3200 przefiltrowanych prac zidentyfikowaliśmy 5 wymiarów oceny:
* Tradycyjne metryki wydajności
* Rozumowanie wieloetapowe i planowanie eksperymentalne
* Bezpieczeństwo i wykrywanie błędów
* Synteza wiedzy
* Przepływy pracy wspomagane narzędziami
To, co wielokrotnie zauważyliśmy jako brak: jak te wymiary współdziałają w rzeczywistych cyklach R&D i projektowaniu eksperymentów.
AI może osiągnąć doskonałe wyniki w każdym teście - a mimo to mieć trudności jako partner badawczy.
@ilyasut poruszył podobny temat niedawno w podcaście @dwarkesh_sp, zauważając, jak dzisiejsze modele AI nie potrafią uogólniać w bardziej skomplikowanych zadaniach jako agenci kodowania:
Te wzorce awarii nie są tylko teoretyczne.
Recursion Pharmaceuticals przeprowadza 2,2 miliona eksperymentów z wykorzystaniem AI co tydzień, a rynki automatyzacji laboratoriów rosną o 7–8% rocznie.
Wdrożenie AI w badaniach o wysokiej stawce wymaga rygorystycznych kontroli pod kątem ważności naukowej, powtarzalności i bezpieczeństwa.
Proponujemy rozszerzenie z czysto benchmarków zdolności na uwzględnienie również benchmarków przepływu pracy.
Cztery wymiary mają znacznie większe znaczenie niż jakikolwiek pojedynczy wynik zadania:
1. Jakość dialogu - Czy zadaje pytania wyjaśniające przed podjęciem decyzji?
2. Orkiestracja przepływu pracy - Czy późniejsze etapy odzwierciedlają wcześniejsze ograniczenia?
3. Ciągłość sesji - Czy pamięta kontekst przez kilka dni?
4. Doświadczenie badacza - Czy odpowiednio kalibruje zaufanie?
Wskaźniki wydajności pracy mają na celu testowanie AI w sposób, w jaki robi to prawdziwa nauka.
Z niekompletnymi danymi, zmieniającymi się budżetami, sprzecznymi wynikami, opiniami PI i niespodziewanymi niepowodzeniami.
Czy AI się dostosowuje, czy też zapada w sztywność i halucynacje?
Tylko to pierwsze jest prawdziwym partnerem badawczym.

Ostatecznie: Systemy osiągające wysokie wyniki w izolowanych zadaniach mogą zawodzić jako współpracownicy badawczy.
Czas rozszerzyć benchmarki, aby odpowiadały rzeczywistemu sposobowi pracy naukowców: iteracyjnie, konwersacyjnie, z uwzględnieniem ograniczeń, obejmując wiele sesji.
Przyszłość AI w nauce na tym polega.
7,64K
Najlepsze
Ranking
Ulubione
