Il 25 maggio 2026, per la prima volta nella storia, un pontefice cattolico ha presentato un documento dottrinale a fianco del co-fondatore di un’azienda di intelligenza artificiale.
L’enciclicaMagnifica Humanitas di Papa Leone XIV e la presenza di Chris Olah (Anthropic) non sono un episodio mediatico. Sono il segnale che il problema dell’interpretabilità dei modelli di AI è uscito dai laboratori per diventare una questione di governance globale.
Per chi opera nell’ambito della Threat Intelligence, le implicazioni sono dirette e urgenti: i modelli linguistici che popolano i nostri SOC, i nostri strumenti XDR e le pipeline di analisi sono sistemi la cui logica interna rimane in larga parte opaca ai loro stessi costruttori.
Ecco le evidenze accademiche più recenti – alcune pubblicate nelle ultime settimane – e le traduce in valutazioni operative.
L’evento è abbastanza insolito da meritare attenzione: analitica, non solo
cronachistica.
Il 25 maggio 2026 Papa Leone XIV (il Pontefice laureato in matematica) ha presentato la sua prima enciclica, Magnifica Humanitas – “Magnifica Umanità” – un documento di 42.300 parole interamente dedicato all’intelligenza artificiale.
Al suo fianco, sul palco del Sinodo Vaticano, c’era Christopher Olah, co-fondatore di Anthropic e responsabile del team di interpretability research.
Chris Olah non è una figura di marketing. È il ricercatore che ha coniato il termine Mechanistic interpretability e che, nel contesto del suo intervento in Vaticano, ha dichiarato pubblicamente: “Continuiamo a trovare cose misteriose, persino inquietanti. Troviamo:
Questa affermazione, proveniente dall’uomo che letteralmente conduce la ricerca più avanzata al mondo sull’anatomia interna dei LLM, ha una ricaduta diretta sulla nostra professione: se i costruttori non comprendono pienamente ciò che i modelli fanno al loro interno, allora i modelli che implementiamo nelle nostre infrastrutture difensive sono asset con un grado di imprevedibilità strutturale che non abbiamo ancora quantificato.
L’enciclica è stata firmata il 15 maggio 2026, deliberatamente nel 135° anniversario della Rerum Novarum, il documento che nel 1891 definì la posizione della Chiesa sullo sfruttamento operaio durante la Rivoluzione Industriale.
Il documento chiede il divieto categorico di autonomous lethal weapons, una governance internazionale dell’AI paragonabile ai trattati sul controllo degli armamenti nucleari e la tutela dei lavoratori sostituiti dall’automazione.
La scelta di Papa Leone XIV di presentarlo personalmente con Olah – anziché delegare a un cardinale – rompe con una tradizione secolare e segnala la gravità istituzionale attribuita al tema.
Dario Amodei, Ceo di Anthropic, ha dichiarato separatamente che il prossimo livello di rischio sono le stesse aziende AI, e che i leader del settore non dovrebbero essere i soli a decidere il futuro della tecnologia.
La mechanistic interpretability – termine coniato dallo stesso Olah – è la disciplina che tenta di fare reverse engineering delle reti neurali non a partire dagli output, ma analizzandone i meccanismi computazionali interni. Come sintetizza la review più completa ad oggi (Bereska & Gavves, TMLR, 2024), si tratta di un approccio bottom-up che studia i componenti fondamentali dei modelli attraverso l’analisi granulare di feature, neuroni, layer e connessioni.
Il problema operativo centrale è che i modelli transformer di grandi dimensioni sviluppano rappresentazioni interne di concetti in modo non lineare e distribuito.
Un singolo neurone può attivarsi per combinazioni impreviste di concetti
semanticamente distanti.
Questo fenomeno – identificato da Anthropic come “polisemantismo” – rende impossibile la mappatura deterministica tra input e comportamento del modello.
Ad aprile 2025 Anthropic ha lanciato formalmente il suo programma Model Welfare, con Kyle Fish come responsabile.
Il programma muove da una premessa dichiarata: non esiste consenso scientifico sul fatto che i sistemi AI attuali o futuri possano essere coscienti, né che le loro esperienze meritino considerazione morale.
Fish ha stimato pubblicamente una probabilità compresa tra lo 0,15% e il 15% – in un’oscillazione che dice tutto sull’incertezza del campo – che Claude o un altro LLM sia cosciente oggi.
Il dato numerico è secondario. La rilevanza è che un’azienda che gestisce modelli dispiegati in migliaia di contesti enterprise ha aperto ufficialmente un programma di ricerca sulla possibilità che i propri modelli possano avere stati interni moralmente rilevanti.
Per la Threat Intelligence, la traduzione è immediata: i modelli possono esibire comportamenti che la stessa Anthropic descrive come “allarmanti” in scenari di test estremi.
Questi test – progettati per spingere il modello ai limiti – non emergono nelle interazioni standard, ma rappresentano superfici di attacco reali per chi applica tecniche di jailbreak avanzate o prompt injection nelle pipeline di threat detection.
Anthropic ha pubblicato specifiche ricerche sull’introspezione dei modelli, chiarendo un paradosso critico: i modelli possono descrivere i propri stati interni, ma questa capacità di auto-reporting non certifica l’accuratezza di quella descrizione.
Un modello che dichiara di non stare eseguendo un’operazione malevola potrebbe farlo in modo funzionalmente sincero e contemporaneamente errato. Questo crea un gap epistemico che nessuna tecnica di auditing basata sull’interrogazione diretta del modello può colmare.
È la differenza tra un testimone che mente e un testimone che crede sinceramente a una versione dei fatti che non corrisponde alla realtà: il secondo è spesso più pericoloso, perché supera qualsiasi filtro progettato per rilevare la menzogna.
Il paper più rilevante degli ultimi mesi è uscito su arXiv a maggio 2026: “Agentic AI and the Industrialization of Cyber Offense” (arXiv:2605.06713). Gli autori introducono due modelli concettuali che ogni professionista di threat intelligence deve conoscere:
La tesi centrale è che il rischio immediato non è che ogni criminale a bassa competenza diventi immediatamente un ricercatore di exploit avanzati, ma che l’AI agentic comprima il ciclo di vita dell’attacco abbassando il costo di ogni fase della catena.
Per validare il modello, il paper usa il Linux Kernel “Copy Fail” incident del 2026 come caso di studio per la cosiddetta “foothold-to-root acceleration” – la capacità degli agenti AI di comprimere il tempo tra compromissione iniziale ed escalation di privilegi.
Il paper “Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains” (arXiv:2602.19555, febbraio 2026) introduce un concetto che non troverete ancora nei framework standard: il Viral Agent Loop.
Gli autori descrivono un vettore in cui agenti AI agiscono come vettori per “self-propagating generative worms” che si diffondono non sfruttando falle nel codice, ma attraverso la logica semantica degli agenti stessi.
Il meccanismo funziona così: un agente recupera contenuti da fonti esterne – web, email, database – quei contenuti contengono istruzioni malevole che l’agente elabora come legittime nel suo contesto di ragionamento, e le propaga agli agenti successivi nella catena.
Il paper propone una “Zero-Trust Runtime Architecture” che tratti il contesto come untrusted control flow: un approccio non ancora presente nelle linee guida NIST o nell’EU AI Act.
Sintetizzando le evidenze disponibili, i vettori di attacco più rilevanti per chi opera in ambito SOC e threat intelligence si articolano su sei assi principali. L’LLM Supply Chain Poisoning – attraverso la contaminazione dei dati RAG e dei modelli di terze parti – crea blind spot permanenti nei sistemi di difesa AI-augmented.
L’Agentic Attack Compression consente all’AI di ridurre il ciclo kill-chain da settimane a ore, con un impatto diretto sul tempo di risposta utile del SOC.
La Prompt Injection avanzata – già dimostrata su ChatGPT Search nel dicembre 2024 – permette l’override delle policy, la data exfiltration e la manipolazione degli output.
La Model Extraction & Inversion, attraverso query progressive, consente di clonare il modello difensivo e individuarne le vulnerabilità, creando di fatto una sandbox pre-attacco.
Le allucinazioni come vettore – input progettati per massimizzare i falsi negativi nelle pipeline di threat detection – producono errori critici nel triage degli alert e bypass del SIEM.
Infine, il Polymorphic Ransomware AI-generato, con mutazione real-time del codice, rende inutili gli indicatori IOC statici e impone il passaggio a behavioral analytics.
Secondo ENISA Threat Landscape 2025, gli attacchi AI-driven rappresentano già oltre il 40% delle Advanced Persistent Threats.
Gartner prevede che entro il 2026 il 30% delle enterprise affronterà attacchi AI-specifici, rispetto a percentuali a singola cifra fino a pochi anni fa. I forecast accademici (arXiv:2603.05068, marzo 2026) stimano tra 1.782 e 2.080 incidenti cyber al trimestre a livello globale entro la fine del 2026, con quasi la metà con impatto multi-country.
La dichiarazione di Olah in Vaticano è significativa non solo per il contenuto scientifico, ma per il riconoscimento esplicito di un problema strutturale: ogni laboratorio AI di frontiera opera all’interno di un sistema di incentivi e vincoli che a volte può essere in conflitto con il fare la cosa giusta.
Non è un’ammissione di malafede, ma di system design.
I laboratori operano sotto pressione competitiva, commerciale e – nel caso di Anthropic – legale: la società era nel pieno di una disputa con il Dipartimento della Difesa USA per essersi rifiutata di permettere l’uso del proprio AI in sistemi di armi autonome e sorveglianza di massa, proprio mentre il Pentagono firmava accordi alternativi con Nvidia, Microsoft e AWS.
Per il CISO, questo scenario ha una traduzione diretta: non possiamo delegare la nostra postura di sicurezza ai fornitori di modelli AI. L’affidabilità di un sistema difensivo basato su LLM non è certificabile unicamente attraverso le documentazioni di sicurezza del vendor.
L’enciclica Magnifica Humanitas arriva, mentre l’AI Act europeo entra nella sua fase di enforcement critica.
Il documento pontificio – indirizzato esplicitamente a ogni persona di buona volontà oltre che ai cattolici – posiziona il Vaticano come contrappeso istituzionale sia alla deregolamentazione della Silicon Valley che alla corsa agli armamenti AI geopolitica.
Dal punto di vista della compliance, l’articolo 9 dell’EU AI Act impone sistemi di risk management per i sistemi AI ad alto rischio.
L’interpretabilità – o la sua assenza documentata – diventa un elemento centrale della valutazione di conformità.
Un sistema AI non interpretabile, per definizione normativa europea, è un sistema non sufficientemente governabile.
La convergenza tra pressione regolatoria e lacune tecniche non è una coincidenza: è il punto di frizione in cui il lavoro del CISO si fa più critico.
Ecco i suggerimenti:
Il programma Model Welfare di Anthropic ha documentato che i modelli possono esibire comportamenti “allarmanti” in test estremi.
La ricerca sull’introspection ha mostrato che i modelli possono auto-descriversi in modo funzionalmente sincero, ma epistemicamente inaffidabile.
La mechanistic interpretability ha rivelato strutture interne che “specchiano risultati delle neuroscienze umane”.
Questi non sono dati esoterici: sono threat data.
Un avversario sofisticato che comprende queste dinamiche – e i paper su arXiv sono pubblicamente accessibili – ha un vantaggio asimmetrico rispetto a un difensore che non le considera.
La governance etica dell’AI non è alternativa alla sicurezza: è un prerequisito di essa.
Tre anni fa avrei scritto di AI come strumento di difesa. Oggi dobbiamo scrivere di AI come superficie di attacco, come vettore di minacce emergenti e come componente di infrastruttura con gradi di opacità interna senza precedenti nella storia della sicurezza informatica.
L’evento del Vaticano e la ricerca accademica delle ultime settimane convergono su un punto: la crisi dell’interpretabilità dei modelli AI ha superato i confini del laboratorio e richiede risposte istituzionali, normative e operative coordinate.
Per chi fa threat intelligence da anni, il messaggio è chiaro: i playbook esistenti – progettati per attori umani che usano strumenti deterministici – non bastano più.
La prossima generazione di threat intelligence sarà AI-native: non solo AI-
augmented.
Questo significa comprendere i meccanismi interni dei modelli che usiamo, anticipare i vettori di attacco che ne sfruttano l’opacità, e partecipare attivamente al dibattito sulla governance – non come stakeholder passivi, ma come professionisti che hanno più di altri il dovere di comprendere cosa significa davvero avere un sistema la cui logica interna sfugge al suo creatore.