Intervista con un ex dipendente di $ORCL sul panorama dell'AI e sul futuro di Neocloud: - L'esperto evidenzia un cambiamento significativo nell'offerta cloud di $ORCL, OCI ora fornisce una media del 66% di risparmi sui costi di calcolo rispetto ad altri partner hyperscale, posizionandosi per una rapida crescita nonostante il suo storicamente scarso design di rete. L'esperto osserva che il principale vantaggio strategico di OCI è il suo TCO prevedibile e basso, in contrasto con i costi imprevedibili dei concorrenti come $AMZN, $MSFT e $GOOGL, dove le funzionalità multi-regione e DR possono portare a aumenti di prezzo imprevisti del 30%–40%. - Secondo l'esperto, gli hyperscalers stanno investendo massicciamente nell'infrastruttura GPU dei data center, principalmente per abilitare modelli AI e database vettoriali per l'uso dei clienti. Tuttavia, l'esperto osserva un significativo squilibrio finanziario a breve termine: i costi di investimento degli hyperscalers sono attualmente superiori ai ricavi generati dalla fatturazione dei clienti, indicando che non sono ancora completamente monetizzati. Si aspettano che ci vorranno dai 2 ai 3 anni affinché gli hyperscalers recuperino il loro investimento e raggiungano un punto di prezzo redditizio. Questo è principalmente perché l'industria è ancora nel mezzo del ciclo di vita delle GPU e sta ancora determinando i costi operativi a lungo termine. - L'esperto sottolinea che i neocloud emergenti, come $CRWV e $NBIS, sono una fase temporanea guidata da severe restrizioni di capacità nel mercato, dove la domanda di AI supera l'offerta di GPU, principalmente da $NVDA. L'esperto considera l'attuale alta domanda come una "bolla AI" che persisterà per i prossimi tre o quattro anni. - Crede che l'architettura futura si concentrerà sull'efficienza, dando priorità a un budget CPU dell'80% con solo il 10% allocato per l'uso on-demand delle GPU (per compiti come inferenza e fine-tuning) e il restante 10% per sicurezza/governance. In definitiva, una volta che i modelli AI diventeranno altamente efficienti, la necessità di inseguire costantemente grandi cluster GPU diminuirà, consentendo all'industria di concentrarsi su modelli linguistici più piccoli e ottimizzati, addestrabili all'interno della propria tenancy cloud.