Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Primo studio su larga scala di agenti AI effettivamente in produzione.
L'hype dice che gli agenti stanno trasformando tutto. I dati raccontano una storia diversa.
I ricercatori hanno intervistato 306 professionisti e condotto 20 studi di caso approfonditi in 26 settori. Ciò che hanno scoperto sfida le assunzioni comuni su come vengono costruiti gli agenti in produzione.
La realtà: gli agenti in produzione sono deliberatamente semplici e strettamente vincolati.
1) Modelli e Affidabilità
- Il 68% esegue al massimo 10 passaggi prima di richiedere l'intervento umano.
- Il 47% completa meno di 5 passaggi.
- Il 70% si basa su modelli preconfezionati senza alcun fine-tuning.
- Il 74% dipende principalmente dalla valutazione umana.
I team scambiano intenzionalmente autonomia per affidabilità.
Perché i vincoli? L'affidabilità rimane la principale sfida irrisolta. I professionisti non possono verificare la correttezza degli agenti su larga scala. I benchmark pubblici raramente si applicano a compiti di produzione specifici per il dominio. Il 75% dei team intervistati valuta senza benchmark formali, facendo affidamento su test A/B e feedback diretto degli utenti.
2) Selezione del Modello
Il modello di selezione ha sorpreso i ricercatori. 17 dei 20 studi di caso utilizzano modelli di frontiera closed-source come Claude Sonnet 4, Claude Opus 4.1 e GPT o3. L'adozione di modelli open-source è rara e guidata da vincoli specifici: carichi di lavoro ad alto volume in cui i costi di inferenza diventano proibitivi, o requisiti normativi che impediscono la condivisione dei dati con fornitori esterni. Per la maggior parte dei team, i costi di runtime sono trascurabili rispetto agli esperti umani che l'agente supporta.
3) Framework per Agenti
L'adozione dei framework mostra una divergenza sorprendente. Il 61% dei rispondenti al sondaggio utilizza framework di terze parti come LangChain/LangGraph. Ma l'85% dei team intervistati con implementazioni in produzione costruisce implementazioni personalizzate da zero. Il motivo: i loop core degli agenti sono semplici da implementare con chiamate API dirette. I team preferiscono strutture minime, costruite per scopi specifici, piuttosto che un eccesso di dipendenze e strati di astrazione.
4) Flusso di Controllo degli Agenti
Le architetture di produzione favoriscono flussi di lavoro statici predefiniti rispetto all'autonomia aperta. L'80% degli studi di caso utilizza flussi di controllo strutturati. Gli agenti operano all'interno di spazi d'azione ben definiti piuttosto che esplorare liberamente gli ambienti. Solo un caso ha consentito esplorazioni senza vincoli, e quel sistema funziona esclusivamente in ambienti sandbox con rigorosa verifica CI/CD....

Principali
Ranking
Preferiti
