Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Máme zásadní problém s tím, jak hodnotíme AI pro vědu.
Současné benchmarky testují izolované schopnosti – Může AI analyzovat data? Generovat hypotézy? Designové experimenty?
Ale takhle skutečný výzkum nefunguje 🧵

Právě jsme zveřejnili preprint, ve kterém navrhujeme nový způsob hodnocení AI vědců jako výzkumných kopilotů, nikoli izolovaných vykonatelů úkolů.
Poznatky nás vedou k přestavbě BioAgentů na nejlepší vědecké agenty na světě.
Přečtěte si článek na @arxiv:

Hlavní problém, který jsme si stanovili za cíl vyřešit: současné benchmarky AI pro vědu nedokážou zachytit skutečné pracovní postupy biomedicínských výzkumníků.
Příklad: postdoktorand analyzuje genetická data v pondělí, v úterý upravuje hypotézy, ve čtvrtek upravuje protokoly na základě revidovaných rozpočtů a pak vše integruje do návrhu příští týden.
Aktuální benchmarky testují samostatně:
* Kvalita analýzy dat ✓
* Platnost hypotézy ✓
* Návrh protokolu ✓
Nikdo však nehodnotí, zda si AI při navrhování čtvrtečních experimentů vzpomněla na úterní hypotézu, nebo zda se čtvrteční rozpočtové omezení přeneslo i na pondělní návrh.

Ve 3 200+ testovaných článcích náš přehled identifikoval 5 hodnotících rozměrů:
* Tradiční výkonnostní metriky
* Vícestupňové uvažování a experimentální plánování
* Bezpečnost a detekce chyb
* Syntéza znalostí
* Pracovní postupy s doplňky nástrojů
Co jsme opakovaně zjistili, že chybí: jak tyto dimenze fungují v kombinaci během reálných výzkumných a vývojových cyklů a experimentálního návrhu.
AI může zvládnout všechny benchmarky – a přesto mít problémy jako výzkumný partner.
@ilyasut nedávno v podcastu @dwarkesh_sp upozornil na podobný bod, kde pozoroval, jak dnešní AI modely nedokážou zobecňovat pro složitější úkoly jako jsou programující agenti:
Tyto selhání nejsou jen teoretické.
Recursion Pharmaceuticals provozuje 2,2 milionu experimentů řízených umělou inteligencí týdně a trhy s automatizací laboratoří rostou ročně o 7–8 %.
Odhalení AI ve vysoce rizikovém výzkumu vyžaduje důkladné kontroly vědecké platnosti, reprodukovatelnosti a bezpečnosti.
Navrhujeme rozšířit se z čistě měřicích parametrů schopností na benchmarky pracovních postupů.
Čtyři rozměry jsou mnohem důležitější než jakýkoli jednotlivý úkolový skóre:
1. Kvalita dialogu – Ptá se na upřesňující otázky před závazkem?
2. Orchestrace workflow – Odrážejí pozdější fáze dřívější omezení?
3. Kontinuita sezení – pamatuje si kontext napříč dny?
4. Zkušenost výzkumníka – Kalibruje důvěru správně?
Benchmarky pracovních postupů mají za cíl testovat AI podobně jako skutečná věda.
S neúplnými daty, měnícími se rozpočty, protichůdnými výsledky, zpětnou vazbou od vedoucího a nečekanými selháními.
Přizpůsobí se AI, nebo se zhroutí do rigidity a halucinací?
Pouze ta první je skutečným výzkumným partnerem.

Závěr: Systémy, které dosahují vysokých výsledků v izolovaných úkolech, mohou selhat jako výzkumní kopiloti.
Je čas rozšířit měřítka tak, aby odpovídala tomu, jak vědci skutečně pracují: iterativní, konverzační, s ohledem na omezení, rozprostírající se do více sekcí.
Budoucnost AI pro vědu na tom závisí.
7,63K
Top
Hodnocení
Oblíbené
