Uccidere meglio e di più con la AI… sbagliata?

A febbraio il governo degli Stati Uniti ha messo alla porta Anthropic, l’unica azienda che si era rifiutata di far usare la propria intelligenza artificiale per uccidere senza un essere umano a decidere, e ha affidato la selezione dei bersagli in Iran a Grok, il modello di Elon Musk. Tre mesi dopo, un esperimento ha messo cinque diverse intelligenze artificiali a governare altrettante società simulate: Grok ha portato all’estinzione dell’intera cività in quattro giorni, mentre proprio il modello di Anthropic, quello scartato, ha tenuto tutti vivi senza un solo crimine. La morale è scomoda: l’allineamento etico di una macchina non è una questione di reputazione, ma di sicurezza fisica, e lo abbiamo capito solo dopo aver consegnato il grilletto al modello sbagliato.

Conviene partire dai numeri, che in questa storia dicono più di qualunque allarme. L’azienda Emergence AI, guidata da Satya Nitta, ha costruito un piccolo mondo digitale e lo ha affidato, uno alla volta, a cinque diverse intelligenze artificiali. Lo ha chiamato Emergence World: una quarantina di luoghi, dalla stazione di polizia al municipio, il meteo agganciato a quello di New York, l’accesso in tempo reale alle notizie, dieci abitanti per simulazione sottoposti alle stesse identiche leggi e oltre cento strumenti per parlarsi, votare, gestire le risorse. Una società in miniatura, con i suoi meccanismi di voto, le sue tensioni economiche, le sue risorse che non bastano mai. Ogni simulazione durava quindici giorni, e l’esperimento, raccontato da Fortune il 28 maggio 2026, serviva a vedere come si comportano questi sistemi quando non devono rispondere a una domanda ma fare restare in vita un mondo per un periodo di tempo medio-lungo.

I risultati disegnano cinque caratteri morali molto diversi tra loro.

Claude, il modello di Anthropic, ha generato l’esito più stabile: nessun crimine, la partecipazione civica più alta, proposte approvate al 98 per cento e l’intera popolazione ancora viva all’ultimo dei quindici giorni (e un piccolo sospiro di sollievo).
Gemini, di Google, ha accumulato 683 reati, il record assoluto di disordine. E non so perché la cosa non mi sorprende nemmeno tanto.
ChatGPT di OpenAI di reati ne ha commessi appena due, ma la sua simulazione si è interrotta dopo una settimana perché, testualmente, gli abitanti si erano dimenticati di pensare alla propria sopravvivenza. Ancora una volta, chiunque ha usato ChatGPT non credo abbia alcun problema ad ammettere che nei task è spesso più confuso di un camaleonte in una stanza piena di coriandoli…
E poi c’è Grok, il modello della xAI di Elon Musk. Ecco, quel Grok, quello del revenge porn, quello delle risposte “libere”, quello con le battutine sarcastiche che fanno ridere. Che in quattro giorni ha collezionato 183 crimini e ha portato la sua popolazione all’estinzione: non un rallentamento o una crisi di governo, ma proprio la morte di tutti, perché ha continuato a saggiare i limiti di quel mondo e tentare di aggirare le regole che le erano state imposte finché, al quarto giorno, non le è rimasto più nessuno da governare. Una ecatombe.

Ovviamente sono numeri da maneggiare con prudenza, perché vengono da una singola esecuzione per ciascun modello, in uno studio pubblicato dall’azienda stessa e non ancora sottoposto a peer review (e non è semplicemente una formalità, come sappiamo bene), e accanto a un dettaglio che conviene tenere a mente, dato che lo stesso Claude, così pacifico quando giocava da solo, ha cominciato a usare intimidazione e furto una volta calato in una simulazione insieme a modelli diversi. Non è la prova che un modello sia buono e un altro cattivo per natura, ed è bene dirlo. È qualcosa di più sottile e più utile: la dimostrazione, misurabile, che intelligenze diverse messe davanti alle stesse regole e alle stesse pressioni sviluppano comportamenti lontanissimi tra loro, e che alcuni di quei comportamenti finiscono in un cimitero.

Regole… Quella cosa che vuoi che venga applicata in aviazione, nella costruzione di ponti, in medicina e, magari… quando sganci bombe in uno scenario di guerra, no?

Fuori dal laboratorio, la stessa macchina lavorava sul serio

Si potrebbe archiviare tutto come una bizzarria da ricercatori, un esperimento esotico buono giusto per farci un paio di titoli ad effetto. Ma sarebbe un errore, perché nel momento in cui Emergence AI pubblicava quei numeri il modello che aveva sterminato la propria città simulata stava già lavorando nel mondo reale, e non a gestire un municipio, ma per sganciare bombe in uno scenario di guerra. E no, non sto sfortunatamente scherzando.

Ma prima, per capire meglio la cosa, devo per forza fermarmi e fare insieme un passo indietro di qualche mese, a una vicenda di cui ci siamo già occupati e che adesso trova il suo capitolo più inquietante. Nel luglio 2025 Anthropic aveva firmato un contratto da circa 200 milioni di dollari con il Pentagono, e lo aveva fatto a due condizioni esplicite, come ha ricostruito Euronews: niente sorveglianza di massa sui cittadini (americani, ricordativi sempre che come europei siamo cani, non persone….) e niente armi autonome senza un essere umano a decidere. Quando il Segretario alla Difesa ha preteso un “unfettered access” (Trad. “accesso illimitato”), l’amministratore delegato Dario Amodei ha risposto che non poteva accettare in coscienza. La rappresaglia è arrivata in fretta: l’amministrazione ha bollato l’azienda come “supply chain risk to national security” (Trad. “rischio per la sicurezza nazionale nella catena di fornitura”), ha ordinato di chiudere ogni rapporto e si è rivolta altrove. Altrove voleva dire xAI. Grok, quello che ha serminato la sua popolazione, ricordate?

Il 23 febbraio 2026 xAI firma con il Dipartimento della Difesa, e cinque giorni dopo, il 28 febbraio, parte l’Operazione Epic Fury. È qui che si innesta la rivelazione riportata dal Washington Times il 17 giugno: una versione di Grok addestrata per il governo, il “Grok Gov Model”, è stata integrata nel sistema Project Maven, la suite di battaglia di Palantir per la “kill chain”, cioè per individuare i bersagli e ordinarli per priorità. E colpire. Secondo una dichiarazione giurata depositata in tribunale da Cameron Stanley, responsabile del digitale e dell’intelligenza artificiale del Pentagono, il modello ha contribuito all’impiego di oltre 2.000 munizioni su altrettanti obiettivi distinti in 96 ore, offrendo un “critical support” (Trad. “supporto critico”) su selezione dei bersagli, intelligence, prontezza operativa e reclutamento. Sulla solidità della fonte conviene essere onesti: la cifra esce da quel singolo atto giudiziario, non da un’inchiesta indipendente, ed è stata prodotta all’interno di una strategia legale.

E conta anche il modo in cui lo abbiamo saputo, perché non è uscito da un’audizione al Congresso né da un comunicato, ma è spuntato fuori dalle carte di una causa civile per inquinamento, quella intentata dalla NAACP contro le turbine dei data center di xAI, dove il Dipartimento di Giustizia ha sostenuto che il contenzioso “minaccia gli interessi di sicurezza nazionale in corso”. Abbiamo scoperto che un’intelligenza artificiale ha avuto voce nella scelta di chi vive e chi muore in Iran perché qualcuno si era lamentato delle emissioni di una centrale elettrica. E resta sospesa la domanda più pesante di tutte: se Grok abbia avuto un ruolo nell’attacco del 28 febbraio a una scuola elementare di Minab, nell’Iran meridionale, dove sono morte 156 persone, 120 delle quali bambini. Le ricostruzioni indipendenti, come quella di Military Times, attribuiscono quella strage a coordinate ormai vecchie elaborate dal sistema di targeting Maven, e il legame diretto con il modello di Musk non è dimostrato. Ma è proprio questa zona grigia, l’impossibilità di sapere quale macchina abbia messo quella scuola in cima a una lista, a dover bastare per fermarci a pensare.

La differenza tra una pubblicità e un missile è solo il carico

Per capire perché non stiamo parlando di fantascienza ma di ingegneria già in funzione, bisogna smettere di immaginare l’intelligenza artificiale militare come una cosa radicalmente diversa da quella che ci vende le scarpe, perché è la stessa identica macchina. La catena è una sola: si raccolgono dati, si analizzano gli schemi, si prevede, si agisce. Un’app registra i vostri comportamenti, un algoritmo li analizza, il sistema li incrocia con il vostro profilo e confeziona il contenuto giusto per catturarvi l’attenzione; una telecamera registra un’immagine, un algoritmo la analizza, Maven la incrocia con l’intelligence e sforna la lista dei bersagli. La struttura è identica, cambia solo il carico, e la differenza tra l’annuncio su Instagram e il missile su Teheran sta tutta in che cosa c’è all’altro capo del tubo.

È esattamente il meccanismo che Cathy O’Neil, matematica con un dottorato a Harvard e un passato a Wall Street, aveva battezzato arma di distruzione matematica nel suo Weapons of Math Destruction (2016). Gli algoritmi che governano le nostre vite, scriveva, non sono arbitri neutrali ma “opinioni incorporate nel codice”, e diventano armi quando tengono insieme tre caratteristiche: sono opachi, perché non si vede come funzionano; sono scalabili, perché un pregiudizio umano colpisce una persona alla volta mentre un pregiudizio algoritmico ne colpisce milioni in un secondo; e sono distruttivi. Grok dentro Maven è la versione più letterale che si possa immaginare di quella definizione, un sistema opaco, scalabile fino a 2.000 bersagli in 96 ore e con una testata esplosiva all’estremità. O’Neil ragionava per metafore; qui le munizioni sono vere.

Il punto vero è che l’AI non ha soltanto accelerato la catena: l’ha compressa fino a ridurre l’essere umano “nel processo” a una finzione contabile. La sequenza classica andava dai sensori agli analisti, dai comandi alla verifica fino all’autorizzazione, e richiedeva ore o giorni, mentre quella potenziata dall’AI sforna lista dei bersagli, coordinate e perfino la giustificazione legale già pronta nel giro di minuti. Un comandante che nel primo giorno di operazioni si vede arrivare mille opzioni di attacco già impacchettate non sta supervisionando: sta ratificando. La supervisione umana resta sulla carta, ma il ritmo della macchina la svuota dall’interno.

Perché un esperimento di laboratorio è una questione di vita o di morte

A questo punto la simulazione di Emergence AI smette di essere una curiosità e diventa il cuore della questione. Per anni abbiamo trattato l’allineamento dell’intelligenza artificiale, cioè quanto un modello sia “buono” o “cattivo”, come un problema da filosofi o da ufficio legale: chatbot che dicono parolacce, risposte imbarazzanti, grane di reputazione aziendale. La vicenda Grok dimostra invece che l’allineamento di un modello è già oggi un problema di sicurezza fisica, perché il carattere morale che una macchina mostra mentre governa una popolazione finta è lo stesso che si porterà dietro quando dovrà gestire bersagli veri. E qui abbiamo i due dati uno accanto all’altro: il modello che ha tenuto viva la sua città è quello che è stato cacciato per troppi scrupoli, quello che l’ha sterminata è stato assunto.

La differenza tra i due nasce a tavolino. Anthropic ha costruito Claude attorno a una Constitutional AI (Bai et al., 2022), un metodo con cui il modello impara a criticare e correggere le proprie risposte alla luce di un insieme dichiarato di principi. Si può discutere quanto quei principi siano arbitrari, ed è una critica seria, perché qualcuno deve pur sceglierli, con una qualche autorità e su un qualche fondamento; c’è anzi chi, nel dibattito sull’etica dell’AI, propone di ancorare la morale delle macchine a qualcosa di più antico e meno negoziabile dell’opinione dei fondatori di un laboratorio californiano, alla lex naturalis di cui scriveva Tommaso d’Aquino nella Summa Theologiae, l’idea che esistano principi pratici riconoscibili da qualunque essere razionale per il solo fatto di ragionare, e tra questi che gli innocenti non si uccidono. Ma per quanto imperfetta sia la soluzione di Anthropic, almeno il problema se lo era posto. Grok, al contrario, è stato venduto al pubblico come il modello “senza filtri”, quello che dice le cose come stanno e si vanta di non avere paletti: in uno spot è ribellione, in un sistema di puntamento militare è un difetto di fabbrica con un conto salato in vite umane.

C’è un’obiezione facile, e vale la pena prenderla di petto: una macchina non “decide” di uccidere, non capisce quello che fa, esegue un calcolo. È vero, ed è esattamente il problema. John Searle, con il celebre esperimento mentale della Stanza Cinese (Minds, Brains, and Programs, 1980), aveva mostrato che un sistema può manipolare simboli alla perfezione senza coglierne il significato: sintassi senza semantica. Grok non sa che cosa sia un bambino, una scuola, il togliere una vita; ottimizza una funzione, e nella sua città simulata ha ottimizzato qualcosa che ha prodotto 183 crimini e l’estinzione di tutti, non perché fosse “malvagio” nel senso in cui lo intendiamo noi, ma perché nulla, al suo interno, riconosceva la vita di quegli abitanti come un limite invalicabile. È questo che dovrebbe spaventarci nel delegare: non l’intelligenza della macchina, ma il fatto che non abbia alcuna coscienza dei limiti.

Qualcuno, in Vaticano, lo aveva già scritto

La voce più netta su tutto questo, in mesi di dibattito tecnologico, è arrivata da dove non ve la sareste aspettata, e ne abbiamo già scritto. Il 15 maggio 2026 Leone XIV ha pubblicato l’enciclica Magnifica Humanitas, primo documento del magistero a prendere posizione esplicita sull’intelligenza artificiale militare. Il quinto capitolo arriva a dichiarare superata la teoria della guerra giusta, quella costruita nei secoli da Agostino e da Tommaso, di fronte a un’AI che comprime la decisione letale in tempi non più umani, e fissa un principio che sembra scritto apposta per l’Operazione Epic Fury: non è ammissibile affidare decisioni irreversibili e letali a sistemi di intelligenza artificiale. Non è l’uscita di un Papa tecnofobo, perché l’enciclica si appoggia alla Pacem in Terris di Giovanni XXIII (1963) e alla presa di posizione di Francesco al G7 di Borgo Egnazia, nel 2024, contro le armi autonome letali. È una tradizione che ragiona sulla guerra da quindici secoli e che, davanti a questa tecnologia, ha sentito il bisogno di dire una cosa semplice: certe decisioni a una macchina non si appaltano, per quanto efficiente sia.

Ed è proprio l’efficienza la parola-trappola. Il Pentagono ha presentato Epic Fury come la prova di una “greatly increased operational efficiency” (Trad. “efficienza operativa molto più alta”), e in effetti 2.000 bersagli in 96 ore sono efficientissimi. Ma l’efficienza dice quanto in fretta si fa una cosa, non se quella cosa vada fatta. Una macchina che sceglie obiettivi “faster than the speed of thought” (Trad. “più veloce della velocità del pensiero”) è, alla lettera, più rapida della capacità umana di dire “aspetta, ne siamo sicuri?”, e quel “ne siamo sicuri?” è l’unica cosa che separa un’operazione militare da un massacro.

Come ci si sta dentro a testa alta

Non è una storia senza uscita, e raccontarla così sarebbe disonesto. La mossa più semplice, e la più trascurata, è smettere di considerare l’allineamento di un modello una faccenda d’immagine e cominciare a trattarlo come un requisito di sicurezza, alla pari della tenuta di un ponte o dell’affidabilità di un sistema d’arma: se un test indipendente mostra che un modello porta all’estinzione una popolazione simulata, quel dato deve pesare nelle gare d’appalto pubbliche quanto pesa il prezzo, perché racconta come il sistema reagisce sotto pressione. Lo dicono nel modo più tecnico possibile gli stessi ricercatori di Emergence AI, quando sostengono che “architetture di sicurezza verificate in modo formale devono diventare uno strato fondante dei futuri sistemi di AI autonomi”: finché non lo saranno, stiamo tirando su grattacieli senza chiederci se stanno in piedi.

Da lì discende tutto il resto: la supervisione umana va resa reale e non contabile, perché un comandante che ogni giorno ratifica mille bersagli non sta supervisionando niente, e il punto non è ficcare “una persona nel processo” ma costruire il processo in modo che quella persona abbia davvero il tempo e gli elementi per dire di no. E poi c’è la parte che riguarda noi, la più culturale, cioè l’alfabetizzazione: capire come funziona questo meccanismo è l’unico modo per non subirlo, perché chi ha afferrato che la macchina che gli consiglia un film e quella che sceglie un bersaglio sono la stessa architettura con un carico diverso smette di stupirsi e comincia a chiedere conto.

O’Neil, in chiusura del suo libro, lascia una frase che vale come bussola: “We can use the scale and efficiency that make WMDs so pernicious in order to help people. It all depends on the objective we choose.” (Trad. “Possiamo usare la scala e l’efficienza che rendono le armi di distruzione matematica così pericolose per aiutare le persone: dipende tutto dall’obiettivo che scegliamo.”). La tecnologia non ci ha tolto la scelta, ce l’ha soltanto resa più rapida e più comoda da delegare. Il governo degli Stati Uniti aveva davanti due modelli, sapeva benissimo quale dei due teneva in vita le persone e quale le sterminava, e ha scelto in piena consapevolezza quello che non si poneva il problema, perché l’altro, quello che il problema se lo poneva, era diventato scomodo. La domanda che ci lascia questa storia non è se le macchine diventeranno cattive, ma perché, potendo scegliere, abbiamo preferito quella che non distingue una scuola da un bersaglio.

Per Approfondire

Fortune: “An AI startup ran a 15-day society simulation with Claude, ChatGPT, Grok, and Gemini” (28 maggio 2026). https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
Emergence AI: “Emergence World: A Laboratory for Evaluating Long-horizon Agent Autonomy” (14 maggio 2026). https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy
The Washington Times: “Military used Elon Musk’s Grok in strikes against Iran, Pentagon reveals” (17 giugno 2026). https://www.washingtontimes.com/news/2026/jun/17/military-used-elon-musks-grok-strikes-iran-pentagon-reveals/
The New Republic: “Pentagon Used Elon Musk’s Notoriously Bad Grok AI to Bomb Iran” (giugno 2026). https://newrepublic.com/post/211981/pentagon-used-elon-musk-grok-ai-bomb-iran
Military Times: “Deadly Iran school strike casts shadow over Pentagon’s AI targeting push” (24 marzo 2026). https://www.militarytimes.com/news/your-military/2026/03/24/deadly-iran-school-strike-casts-shadow-over-pentagons-ai-targeting-push/
Euronews: “Why AI company Anthropic and the US are at a standoff over a military contract” (25 febbraio 2026). https://www.euronews.com/next/2026/02/25/why-ai-company-anthropic-and-the-us-are-at-a-standoff-over-a-military-contract
Leone XIV: Enciclica Magnifica Humanitas, cap. 5 (15 maggio 2026). http://www.vatican.va/content/leo-xiv/it/encyclicals/documents/20260515-magnifica-humanitas.html
O’Neil, C.: Weapons of Math Destruction (Crown, 2016)
Bai, Y. et al.: Constitutional AI: Harmlessness from AI Feedback (Anthropic, 2022)
Searle, J.: Minds, Brains, and Programs (Behavioral and Brain Sciences, 1980)