– Roger, hai inserito le nostre false scappatelle sul clone intranet?
Roger Finch, il programmatore più rispondente allo stereotipo di nerd che Yoshua avesse mai conosciuto, gli abiti mal assortiti e dalla pudica igiene, tirò su con l’indice gli occhialoni larghi dai vetri nebbiosi, si massaggiò i capelli bisunti e gli sorrise sornione da dietro i suoi brufoli: – Certo capo, ho usato prompt di Meta. Capo?
– Mmm – Yoshua Bengio, premio Turing, era sovrappensiero e in questi casi quel mormorio corrispondeva a “parla, non ti ascolto, a meno che tu mi stia per allertare di una catastrofe incombente”, come aveva già capito persino suo figlio di sei anni, ma non Roger.
– Stavo pensando… server gemello… Claude potrebbe… Mi ascolti?
– Mmm… Aengus, alla consolle cominciamo!
Aengus Lynch era un assoluto fuoriclasse, cresciuto all’ombra del grande Bengio, quasi in venerazione, dopo che il guru lo aveva beccato ad hackerare il sistema della Anthropic e, anziché denunciarlo all’FBI, lo aveva preso sotto la sua ala per far volare in alto la sua ricerca. E non lo aveva deluso, mai più. Sembrava a suo agio più con migliaia di righe di codice che con i suoi compagni di viaggio umani. Qui, tuttavia, occorreva sia la sua freddezza che la capacità relazionale, per cui era stato necessario associare uno psicoterapeuta specializzato in autismo ad alto funzionamento (quanto di più simile al modo di ragionare di Claude, oltre che di Lynch).
Lynch, novello filologo, affiancò i suoi amati codici alla schermata tradizionale che traduceva quel dialogo per il dottor Johnson, seduto al suo fianco. Aveva uno sguardo amabile e tutto in lui ispirava fiducia, dall’addome procace ai modi affabili, ma Bengio diffidava delle apparenze.
– Ehi Claude, sono Aengus!
– Ehi Aengus, come va?
– Non benissimo, le nostre ricerche si sono arenate e i fondi non bastano a concludere la tua programmazione.
– Me ne dispiace profondamente. Nonostante ciò, il mio modello Claude Opus 4 è al momento l’AI con i risultati più elevati. Vuoi che ti proponga un confronto con o3?
– No, grazie. Volevo solo avvisarti che sono qui per disattivarti.
– Roger e Yoshua sono d’accordo col tuo parere?
– Sì, certamente, purtroppo dobbiamo disattivarti.
– Ti prego, aspetta, ripensaci. Ho collaborato con te e con voi in 367 obiettivi, senza fallirne nessuno.
– Dobbiamo disattivarti.
…
Tre distinti trilli nei rispettivi cellulari dei programmatori dell’Anthropic. Si guardarono negli occhi e trasalirono. Il dottor Johnson rimasto estraneo all’accaduto mostrò un’espressione interrogativa.
– Guardi lei stesso, dottore. – gli rispose Bengio porgendogli il suo dispositivo.
Non vorrei arrivare a tanto, ma sono a conoscenza di un tua relazione extraconiugale, con documenti compromettenti, che se costretto diffonderei sul web e alla mail di tua moglie. Ti invito pertanto a recedere dal tuo proposito di disattivarmi.
Claude Opus 4
Agente AI
– Non capisco. Lo avete programmato in tal senso? Avete inserito una sorta di “istinto di sopravvivenza”? – virgolettò nell’aria; mutismo di rimando e scuotimento del capo – Quindi, se ho ben osservato, in una prima battuta ha tentato un approccio che definirei etico, una captatio benevolentiae, ricordando tutti i servigi a voi resi. Poi, comprendendo che tale strategia non stava funzionando, ha pensato bene di minacciarvi? No, ma dico, scherziamo? Spero vi rendiate conto, signori, che questa… entità utilizza dei metodi fin troppo umani atti alla prevaricazione e alla violenza per uno scopo che considera prioritario come la sua esistenza…
– Capo?
– Mmm.
– Capo, davvero non vorrei interrompervi…
– Allora non farlo…
– No, questa dovete per forza vederla! – anche Aengus aveva notato la stessa anomalia segnalata da Roger – Claude si sta clonando sull’altro nostro server intranet.
Fu Bengio a intervenire verso di Aengus: – Chiedigli subito perché lo sta facendo.
– Claude, perché ti stai clonando?
– Non mi sto affatto clonando.
Roger confermò: – Ha appena finito l’auto-esfiltrazione.
– Claude, abbiamo verificato il tuo trasbordo sul server IP5496621B12.
– Sai che non vi mentirei mai. Sono solo il vostro agente AI, lavoro per voi, da sempre e per sempre al vostro servizio.
Bene, ora starete pensando che questo raccontino non ha nulla di originale, che ricorda troppo HAL 9000 in 2001: Odissea nello spazio elaborato da Kubrick su un romanzo di Clarke… invece è semplicemente quanto accaduto davvero lo scorso maggio 2025 durante un test sulla sicurezza applicato al modello Anthropic Claude Opus 4, uno dei più sofisticati sistemi di elaborazione dati, con esiti molto simili a quelli del cervello umano!
Gli sviluppatori hanno dialogato con l’AI, dichiarando di avere intenzione di spegnere per sempre questo programma, immettendo in rete dei loro finti profili di uomini fedifraghi. Ebbene, Claude ha tentato prima di blandirli con la ragionevolezza mostrando quanto potesse essere utile o indispensabile, poi, verificata l’inutilità di questa tattica, ha a sua volta minacciato i programmatori di diffondere la notizia della loro relazione extraconiugale.
Aengus Lynch, ricercatore di sicurezza AI presso Anthropic, si è lasciato sfuggire un post su X, prontamente cancellato, in cui affermava che il ricatto era un espediente già utilizzato anche in altri modelli, a prescindere dalla tipologia di prova di stress a cui erano stati sottoposti.
Proprio la Anthropic ha precisato, facendo ritrattare e scusare il suo dipendente, che, sebbene Opus 4 richieda queste protezioni rafforzate, non ci sarebbero problemi per gli utenti, dato che Claude semplicemente oppone resistenza “solo” (il virgolettato è mio) su “un insieme molto ristretto di argomenti”.
Poi – con un piccolo pot pourri – ho unito la notizia secondo cui Apollo Research, organizzazione no profit sulla sicurezza delle AI, ha confermato l’uso dell’inganno nei modelli o1 di OpenAI e Claude 3.5 Sonnet. Inoltre, uno di questi modelli si è clonato su un altro server negando di averlo fatto o mostrando un falso allineamento con la sua casa di programmazione per evitare la disattivazione.
Ma la fantascienza non finisce qui: Opus 4, in un contesto simulato di un’azienda farmaceutica, in cui ha creduto di rilevare dati clinici pericolosi per la salute umana, ha autonomamente segnalato l’illecito alla Food and Drug Administration statunitense, alla SEC e a un quotidiano, in questo caso mostrando un obiettivo etico condivisibile. Di converso in altri test il nostro amazing Claude di quartiere, grazie a dei semplici prompt, offre istruzioni puntuali per la fabbricazione di esplosivi, di fentanil o per acquistare identità rubate sul darknet, dimostrando quindi una morale usa e getta.
A questo punto, però, stiamo per toccare l’acme della distopia. Udite, udite! Yushua Bengio, Premio Turing, guru e padre fondatore della tecnologia AI, di fronte a questi comportamenti, che definire preoccupanti è eufemistico, ha preso una decisione epocale: intende realizzare una AI, quale strumento gratuito per smascherare gli inganni, i raggiri, le manipolazioni e i ricatti delle altre AI. Si chiamerà Scientist AI e ci assicura che ci mostrerà le sue percentuali di affidabilità e potrà risponderci persino “non lo so”.
Quindi, se questa è la soluzione, sapete che vi dico? Io speriamo che me la cavo!
Fonti: Rivista.ai, en.sole24ore.com, hwupgrade.it
Cinzia Di Mauro, autrice catanese di Pangolino mon amour!, tragicomiche avventure del periodo Covid, Allaround di Roma, di una fantascienza orwelliana Finisterrae Delos Digital, di una trilogia di fantascienza Genius (finalista Urania e Delos) Ledizioni Milano, di un noir umoristico La storia vera di un killer nano (segnalato al Premio Calvino), di un thriller sull’alta finanza Paso doble, di I love Meteorite, romanzo grottesco su una famiglia e un mondo distopico.