DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Si scopre che l'AI può già svolgere il 65% dei compiti professionali... Nvidia ha fatto spendere a 38 dottori di ricerca e MBA oltre 10 ore ciascuno per creare benchmark. Hanno testato oltre 40 modelli su lavoro reale. Non esercizi accademici. Lavoro reale che analisti junior e ricercatori fanno quotidianamente. GPT-5 ha ottenuto un punteggio complessivo del 65,9%. Estraggono fatti con un'accuratezza del 64,4%. Hai bisogno di identificare RTX come il più grande appaltatore del DoD? Scoprire che l'IFFIm ha raccolto 3,5 miliardi di dollari attraverso obbligazioni vaccinali? I modelli estraggono principalmente informazioni specifiche dai documenti, anche quando sono sepolte in decine di pagine. Il ragionamento logico raggiunge il 66,2%. Possono seguire derivazioni a più passaggi, applicare formule correttamente, convalidare catene causali. Quando hai bisogno di un'analisi sistematica seguendo framework consolidati, i modelli forniscono risultati due volte su tre. Il vincitore a sorpresa: i framework di consulenza con un'accuratezza dell'80%. I modelli strutturano con successo analisi di ingresso nel mercato, valutazioni competitive e raccomandazioni strategiche. Comprendono che le Cinque Forze di Porter non sono solo un elenco di concorrenti, ma un'analisi delle dinamiche di potere contrattuale. Problemi di chimica? Tasso di successo del 70,6%. I modelli gestiscono meccanismi di reazione, percorsi di sintesi e calcoli di equilibrio che sfiderebbero la maggior parte dei non specialisti. Stanno calcolando la molarità, prevedendo i prodotti, bilanciando le equazioni a livelli che superano i corsi di laurea. Anche in finanza, dove i modelli sono più deboli con il 63,7%, completano con successo la maggior parte dei modelli di valutazione, interpretano le strutture di cartolarizzazione e scrivono memo di investimento coerenti. Questo è quasi due terzi dell'analisi finanziaria a livello MBA gestita correttamente. ProfBench rivela questo testando in quattro domini professionali con 7.347 criteri scritti da esperti. A differenza dei benchmark ristretti limitati a singoli campi, cattura l'ampiezza del lavoro conoscitivo. E a 12 dollari per valutazione (rispetto a 8000 per PaperBench), qualsiasi ricercatore può misurare la reale capacità. Certo, i modelli faticano con la formattazione professionale (65,3%), le derivazioni fisiche (49,3%) e non possono ancora esaminare 1.000 pagine. Ma abbiamo superato una soglia in cui l'AI gestisce correttamente la maggior parte dei compiti professionali. Non perfettamente. Non completamente. Ma il 65% è sufficiente per cambiare fondamentalmente il modo in cui avviene il lavoro conoscitivo.

Principali

Ranking

Preferiti