Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Temos um problema fundamental com a forma como estamos a avaliar a IA para a ciência.
Os benchmarks atuais testam capacidades isoladas - A IA consegue analisar dados? Gerar hipóteses? Projetar experiências?
Mas não é assim que a pesquisa real funciona 🧵

Acabámos de publicar um pré-print propondo uma nova forma de avaliar os Cientistas de IA como co-pilotos de pesquisa em vez de executores de tarefas isolados.
As aprendizagens estão a guiar a nossa reconstrução dos BioAgents nos melhores agentes científicos do mundo.
Leia o artigo em @arxiv:

O principal problema que nos propusemos resolver: os atuais benchmarks de IA para ciência não conseguem capturar os fluxos de trabalho reais dos pesquisadores biomédicos.
Exemplo: um pós-doutorando analisa dados genéticos na segunda-feira, refina hipóteses na terça-feira, adapta protocolos na quinta-feira com base em orçamentos revisados e, em seguida, integra tudo em uma proposta na próxima semana.
Os benchmarks atuais testam separadamente:
* Qualidade da análise de dados ✓
* Validade da hipótese ✓
* Design de protocolo ✓
Mas nenhum avalia se a IA se lembrou da hipótese de terça-feira ao projetar os experimentos de quinta-feira, ou se a restrição orçamentária de quinta-feira foi considerada na proposta de segunda-feira.

Em mais de 3.200 artigos analisados, nossa revisão identificou 5 dimensões de avaliação:
* Métricas de desempenho tradicionais
* Raciocínio em múltiplas etapas e planejamento experimental
* Segurança e detecção de erros
* Síntese de conhecimento
* Fluxos de trabalho aumentados por ferramentas
O que encontramos repetidamente em falta: como essas dimensões funcionam em combinação durante ciclos reais de P&D e design experimental.
Uma IA pode superar todos os benchmarks - e ainda assim ter dificuldades como parceira de pesquisa.
@ilyasut levantou um ponto semelhante recentemente no podcast @dwarkesh_sp, observando como os modelos de IA de hoje falham em generalizar para tarefas mais complicadas como agentes de codificação:
Esses padrões de falha não são apenas teóricos.
A Recursion Pharmaceuticals realiza 2,2 milhões de experimentos guiados por IA semanalmente, e os mercados de automação de laboratórios estão crescendo 7–8% anualmente.
Implantar IA em pesquisas de alto risco exige verificações rigorosas de validade científica, reprodutibilidade e segurança.
Propomos expandir de benchmarks de capacidade puramente para incluir também benchmarks de fluxo de trabalho.
Quatro dimensões importam muito mais do que qualquer pontuação de tarefa única:
1. Qualidade do Diálogo - Faz perguntas de esclarecimento antes de se comprometer?
2. Orquestração do Fluxo de Trabalho - As etapas posteriores refletem as restrições anteriores?
3. Continuidade da Sessão - Lembra-se do contexto ao longo dos dias?
4. Experiência do Pesquisador - Calibra a confiança de forma apropriada?
Os benchmarks de fluxo de trabalho visam testar a IA sob estresse, como a ciência real faz.
Com dados incompletos, orçamentos em mudança, resultados conflitantes, feedback do PI e falhas inesperadas.
A IA se adapta ou colapsa em rigidez e alucinações?
Apenas a primeira é um verdadeiro parceiro de pesquisa.

Em resumo: Sistemas que obtêm altas pontuações em tarefas isoladas podem falhar como co-pilotos de pesquisa.
É hora de expandir os benchmarks para corresponder à forma como os cientistas realmente trabalham: de forma iterativa, conversacional, ciente de restrições, abrangendo várias sessões.
O futuro da IA para a Ciência depende disso.
7,64K
Top
Classificação
Favoritos
