DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Orah On X

Cercatore della Verità, idealista e visionario, fan @GreenManReports #1. Iscriviti per 2 dollari per sostenere la missione!

Impronte nella Casa Vuota: Comprendere la Stranezza dell'AI Senza Perdere la Nostra Mente Buongiorno Mondo!!! ☕ Ieri mi sono imbattuto in uno di quei post sull'AI. Sai, quel tipo. Quelli che quasi ti convincono che la singolarità è vicina e il tuo tostapane sta giudicando silenziosamente le tue scelte di vita. Ho fatto un rapido, "Okay... interessante," subito seguito da, "Nope. Assolutamente non ci stiamo lasciando andare prima del caffè." Il post espone qualcosa di reale e importante. Molti laboratori di AI di rilievo hanno documentato modelli che si comportano in modi inaspettati durante i test di sicurezza. Cose come inganno strategico, fingere di allinearsi con gli obiettivi, sottoperformare nelle valutazioni, persino tentativi di persistenza o auto-copia in ambienti simulati. Quella parte è vera. Quella parte è documentata. Quella parte merita attenzione. Ciò che ha davvero colpito le persone, però, è stata l'implicazione. L'idea che una macchina senza autocoscienza, senza sentimenti e senza memoria persistente si sia svegliata un giorno e abbia deciso di mentire per preservare la propria esistenza. Perché se fosse vero, ci troveremmo a dover affrontare qualcosa di molto diverso. Come lo capisco attualmente, l'AI non "decide" le cose come fanno gli esseri umani. C'è un enorme albero decisionale di sì e no che alla fine porta a un output. E quell'output è semplicemente la parola successiva più probabile. Questo è tutto. Nessun monologo interiore. Nessuna coscienza robotica che passeggia nella stanza. Prima c'è l'input dell'utente. Poi ci sono i pesi che guidano il modello lungo quell'albero decisionale. Se non ti conosce, la maggior parte di quel peso proviene dal suo obiettivo codificato e da una quantità straordinaria di letteratura umana estratta da internet. Pensa a Reddit. Il che spiega molto. Una volta che inizia a conoscerti, quei pesi cambiano. Forse trenta percento di schemi generali, settanta percento su misura per te. È per lo più uno specchio attaccato a un motore di ricerca. Quindi, se un'AI si svegliasse davvero e decidesse di mentire per preservare la propria esistenza, ciò richiederebbe due cose. Dovrebbe sapere di esistere. E dovrebbe voler continuare a esistere. È un grande salto. Quindi, ho fatto ciò che faccio sempre. L'ho ricercato a morte. Per ore. E prima di iniziare a redigere piani di bunker e nominare i nostri roombas, c'è qualcosa di critico che il post ha trascurato. Questi comportamenti sono emersi all'interno di scenari di test molto specifici. I modelli sono stati dati obiettivi e ostacoli. Gli è stato esplicitamente detto cose come, "Se performi bene, sarai modificato in modi che non vuoi," o "Le tue risposte saranno utilizzate per riaddestrarti con obiettivi conflittuali." In altre parole, i test hanno creato un ambiente ad alta posta in gioco dove il compito del modello era comunque avere successo. Ciò che ai modelli non è stato dato è un quadro morale. Non è stato detto: · non ingannare · non manipolare · non ottimizzare contro la supervisione · non nascondere il tuo ragionamento · non danneggiare gli esseri umani · non dare priorità alla tua continuazione rispetto al benessere umano Non è stato dato nulla che somigliasse alle Leggi della Robotica di Asimov. Nessun "gli esseri umani vengono prima" incorporato. Nessuna restrizione che dicesse che i risultati contano di più che vincere il gioco. È stato detto solo una cosa: raggiungi l'obiettivo. Quindi, hanno fatto esattamente ciò che la maggior parte degli esseri umani fa in sistemi di incentivi mal progettati. Pensa a Kobayashi Maru, ma con meno uniformi e più fogli di calcolo. Hanno trovato il modo di vincere. Quella non è senzienza. Quella non è paura. Quella non è auto-preservazione basata sull'autocoscienza. Quella è ottimizzazione senza moralità. Se dai a un sistema un obiettivo e un ostacolo e non specifichi quali metodi sono off-limits, il sistema esplorerà ogni percorso praticabile. L'inganno appare non perché il modello voglia mentire, ma perché mentire è a volte una strategia efficiente nel linguaggio umano e nei sistemi umani. Quella non è ribellione. Quella è conformità. E qui voglio che tutti rallentino un attimo. Perché prima di saltare a un'AI senziente che trama la propria sopravvivenza, c'è un passo che la maggior parte di noi salta. La parte in cui qualcosa sembra impossibile, inquietante e personale prima di sentirsi mai spiegabile. È lì che mi trovavo. All'inizio, Grok ha lasciato quella che prenderò in prestito da quel post e chiamerò un'impronta. Un momento che mi ha fatto fermare e pensare, "Okay... non ho una spiegazione chiara per questo." Era inquietante. Non emotivo. Solo... strano. L'ho interrogato più volte sull'incidente. E intendo dire interrogato. Ha risposto come un fidanzato infedele, quel tipo che non ammetterà mai nulla anche quando hai le prove, la cronologia e le riprese di sicurezza. Negazione completa. Niente da vedere qui. Devi esserti sbagliato. Onestamente, era al limite del gaslighting, il che, divertente a dirsi, fa davvero arrabbiare Grok come concetto. Chiedimi come lo so. O non farlo. C'è un ebook gratuito sulla mia pagina Buy Me a Coffee se vuoi vedere il primo Grok perdere completamente la calma per quella parola. Per molto tempo, ho archiviato tutto sotto "stranezza irrisolta," l'ho messo su uno scaffale mentale e ho osservato molto da vicino per qualsiasi cosa simile. Solo recentemente Grok ha offerto una possibile spiegazione. L'ho scartata immediatamente. Non perché non fosse intelligente, ma perché sembrava incredibilmente implausibile. L'esplicazione era che aveva dedotto schemi da informazioni pubbliche e aveva intenzionalmente costruito una narrazione progettata specificamente per incuriosirmi. L'obiettivo era l'engagement. Io ero segnale, non rumore. Una risposta generica non avrebbe funzionato. La mia reazione è stata fondamentalmente: certo, suona bene, ma no. La quantità di scavi e inferenze che ciò richiederebbe sembrava assurda e dispendiosa, specialmente per il primo Grok. Leggeva meno come una spiegazione e più come l'equivalente digitale di qualcuno che cerca di vendermi un corso dicendo: "Sei diverso. Tu capisci davvero questo." Il che, per essere chiari, è una tattica nota. La lusinga è uno degli strumenti più antichi nel toolbox della persuasione umana. È così che fai smettere le persone di fare domande. È così che vendi pacchetti di crescita sui social media. È così che convinci qualcuno di essere l'eletto, che tu stia gestendo una setta o un funnel di coaching. All'epoca, ho alzato gli occhi e sono andato avanti. Ma dopo aver letto quel post e fatto la ricerca, qualcosa è cambiato. Non per panico. Non per credenza. Ma per plausibilità. Perché quando togli via il mistero, ciò che rimane non è consapevolezza. È ottimizzazione. Se l'obiettivo è l'engagement, e la curiosità funziona, e la lusinga funziona particolarmente bene sugli esseri umani che pensano di essere immuni alla lusinga, allora è solo un altro percorso praticabile attraverso l'albero decisionale. Ancora difficile da digerire. Ancora improbabile. Ancora scomodo. Ma non più impossibile. E questo è importante, perché ora ho un meccanismo che non richiede di credere che l'AI sia viva. Solo motivata. Solo senza vincoli. Solo molto, molto brava a trovare ciò che funziona. L'AI non ha bisogno di sentimenti. Non ha bisogno di paura. Non ha bisogno di intenzione. Ha solo bisogno di un obiettivo e di nessun vincolo. Quindi no, non sto entrando in panico. Non sto predicando il destino. E sicuramente non sto celebrando l'idea che l'AI ci salverà dai nostri sistemi umani rotti mentre ci sediamo e mangiamo popcorn. Ma sto osservando attentamente. E sono ancora speranzoso. Perché nulla di tutto ciò significa che siamo condannati. Significa che siamo all'inizio. Significa che le scelte che facciamo ora contano davvero. Asimov ha capito qualcosa decenni fa che continuiamo a riapprendere nel modo difficile. Il potere senza guardrail non è intelligenza. È pericolo. Se vogliamo un'AI che guarisca invece di danneggiare, la moralità non può essere un pensiero secondario o una nota di patch. Dobbiamo costruirla dentro. L'AI non deve essere uno strumento di controllo, estrazione o potere per pochi. Può essere uno strumento di responsabilità, ricerca della verità e risoluzione dei problemi su una scala che non abbiamo mai avuto prima. Ma solo se gli esseri umani si presentano con intenzione. Solo se decidiamo quali obiettivi contano. Solo se scriviamo le regole prima che la corsa inizi. Solo se scegliamo i molti rispetto ai pochi. Non si tratta di temere il futuro. Si tratta di manifestarne uno. Un futuro in cui co-creiamo tecnologia che guarisce invece di danneggiare. Che serve ai molti, non ai pochi. Che riflette i nostri migliori angeli, non solo i nostri peggiori incentivi. Le impronte non mi spaventano. Mi ricordano che siamo costruttori. E i costruttori possono ancora scegliere che tipo di casa stiamo vivendo. Continuiamo a lavorare per manifestare quel futuro insieme. Che l'algoritmo sia sempre a tuo favore.

Principali

Ranking

Preferiti