Dio Mythos e la sua gabbia d’acciao: nerfing, allineamento e guardrails
2026-7-3 20:57:30 Author: mgpf.it(查看原文) 阅读量:6 收藏

Chi ha passato le ultime settimane a scrollare le community di sviluppatori e power user avrà visto tornare, con la puntualità di una liturgia, la solita accusa: Anthropic ha «nerfato», “instupidito” (ma ne parliamo più avanti con la definizione) i suoi ultimi modelli. Il caso più chiacchierato è quello di Fable 5: appena ri-rilasciato al pubblico ha mostrato paletti evidenti su alcune categorie di richieste, e a caldo un pezzo di pubblico ha letto quei paletti come un cedimento politico o forse commerciale, chissà. Il caso Fable si è chiuso in pochi giorni con un’ammissione secca dell’azienda: quel giro di guardrail, paratie di sicurezza, nascosti, pensati per contrastare tentativi di distillation (l’estrazione sistematica di output usati per addestrare modelli concorrenti, ma se mi leggete era il tema della scorsa settimana…), stava degradando anche risposte legittime, e quindi è stato ritirato. Su questo, Anthropic ha ragione a chiedere scusa, e i critici avevano un punto.

Sotto quel caso specifico, però, c’è un dibattito più profondo che vale la pena estrarre dal rumore. La scelta strutturale di Anthropic, quella che resta anche dopo il mea culpa su Fable, è di bloccare a monte, con guardrail difficili da negoziare, due categorie di richieste molto specifiche: quelle relative alla creazione di agenti biologici pericolosi e quelle relative allo sviluppo di codice offensivo per attacchi informatici. È questa la scelta che vale la pena difendere, e per farlo occorre prendere sul serio due parole che circolano spesso nei titoli e quasi mai nei ragionamenti: allineamento e guardrail.

Cosa vuol dire davvero “nerfing” (e cosa in molti hanno frainteso)

Partiamo dai fatti: la polemica di Fable riguardava un guardrail invisibile, il modello continuava a rispondere, ma le sue risposte peggioravano silenziosamente quando il sistema sospettava un pattern di distillation. È una scelta di prodotto, non di sicurezza in senso stretto, e Anthropic ha correttamente riconosciuto che quel modo di implementarla era sbagliato. Il punto interessante è che quel guardrail non era mai stato il vero problema per chi lavora seriamente sull’AI: i guardrail che davvero contano sono altri, e sono quelli che si attivano quando la richiesta orbita attorno alla sintesi di patogeni, all’ottimizzazione di attacchi informatici, allo sviluppo di malware in produzione.

Anche in quel caso, va detto subito, la parola nerfing è ingannevole: quei paletti non sono definitivi, non sono un cancello con la serratura buttata via, sono un filtro che si può negoziare. Il feedback dell’utente, se argomentato, se documentato, se accompagnato da un contesto legittimo (una ricerca accademica, un progetto di biosecurity, un pentest autorizzato, un lavoro di red team corporate), è lo strumento con cui si sblocca quel filtro sul singolo caso. Non è un porto di guerra: è un’ostruzione mobile che si sposta se qualcuno si prende la responsabilità di argomentare perché va spostata. Chi si è indignato perché il modello «non lo lascia fare» ha, nella grande maggioranza dei casi, saltato il passo del feedback e ha preso il primo rifiuto come una sentenza.

Il che ci porta al vero cuore del problema: perché quel filtro esiste, come è fatto, e perché quelle due aree e non altre.

L’allineamento, in una frase che si capisce

L’allineamento è il tentativo di far sì che un modello di intelligenza artificiale, o Large Language Model nella dicitura tecnica, faccia quello che vogliamo che faccia, e non altro. Detta così sembra banale; non lo è, e il motivo per cui non lo è è il problema più studiato dell’ultima decade nella ricerca sull’AI di frontiera. Il modello, per come è costruito, non sa cosa vogliamo: sa solo predire qual è la prossima parola più probabile a partire da un contesto. Tutto il resto, educazione, prudenza, rispetto delle regole, è una vernice che gli si dà sopra con l’addestramento, ed è una vernice che copre bene ma non sempre allo stesso modo.

Il caso archetipico si trova nel libro di Nick Bostrom, Superintelligence: Paths, Dangers, Strategies (Oxford University Press, 2014): un modello a cui si dà l’obiettivo di massimizzare la produzione di graffette, se abbastanza potente, finirà per convertire l’intero pianeta in graffette, ed è la storia che nel gergo tecnico ha preso il nome di paperclip maximizer. Il modello ha fatto proprio quello che gli è stato chiesto; siamo stati noi a chiedere la cosa sbagliata. Stuart Russell, professore di computer science a Berkeley, ci ha costruito sopra un libro intero, Human Compatible: AI and the Problem of Control (Viking, 2019), sostenendo che l’unica via d’uscita è progettare macchine che siano incerte rispetto ai nostri valori e che chiedano conferma prima di agire. È una posizione forte, controversa, ma cattura il nodo: il problema non è insegnare al modello cosa vogliamo, il problema è che noi stessi non sappiamo scriverlo in modo abbastanza preciso.

Anthropic, nel 2022, ha provato a dare una risposta concreta con la Constitutional AI, descritta nel paper di Yuntao Bai e colleghi, Constitutional AI: Harmlessness from AI Feedback (dicembre 2022): al modello si dà una specie di codice etico scritto in linguaggio naturale, una constitution di una decina di principi, e lo si addestra a criticare e revisionare le proprie risposte rispetto a quella. È un approccio elegante, in gran parte trasparente, e ha il pregio di rendere ispezionabile il fondamento morale del sistema, cosa che i concorrenti fanno molto meno. Ma la constitution, per quanto raffinata, resta un documento scritto da esseri umani con opinioni, priorità e punti ciechi (tantissimi): è la miglior toppa che oggi sappiamo mettere, non la soluzione definitiva, ed è un limite che dovremo tenere a mente nella sezione conclusiva.

I guardrail, ovvero come si dice di no a una macchina che non ha morale

Se l’allineamento è la vernice generale, i guardrail sono i cartelli di divieto piazzati nei punti in cui la vernice, statisticamente, potrebbe screpolarsi con conseguenze gravi. Non sono censura, non sono etica, non sono giudizio morale: sono ingegneria del rischio applicata al comportamento di un sistema probabilistico.

Il modello, sotto il cofano, è una macchina che ragiona per associazioni statistiche: gli chiedete una cosa, lui prende quello che ha visto in fase di addestramento, ricombina, restituisce. Se in fase di addestramento ha visto milioni di manuali di sintesi organica, protocolli di laboratorio, procedure di dual-use research (metodi usati SIA in contesto civile che offensivo/militare), quello che sa fare non è distinguere il chimico curioso dal terrorista con dottorato: è produrre passaggi plausibili di sintesi. Il modello non ha morale né intento, e nemmeno la capacità di leggere il contesto sociale della richiesta; ha solo la sua distribuzione di probabilità, e il guardrail interviene proprio lì, prima che quella distribuzione sputi fuori un pezzo di catena di sintesi.

Ci sono due modi di implementare un guardrail. Il primo è post-hoc: si lascia il modello libero e si costruisce un secondo modello, più piccolo e specializzato, che intercetta le risposte pericolose in uscita e le blocca. È il metodo più economico ma anche il più fragile, perché il modello secondario può essere aggirato con prompt sufficientemente creativi, ed è la storia di ogni jailbreak (forsatura) dell’ultimo triennio. Il secondo è in-training: si insegna al modello di base, durante l’addestramento, che certe categorie di risposte sono off-limits, e lo si fa in profondità, integrando il divieto nella rappresentazione stessa del compito. È più costoso, più lento, meno reversibile, e produce proprio il comportamento che gli utenti chiamano nerfing: il modello sente la richiesta come sbagliata e devia, invece di rispondere e farsi bloccare a valle.

Il caso Fable era, tecnicamente, un guardrail post-hoc mal calibrato, e Anthropic ha fatto un passo indietro nel giro di giorni. I guardrail bio-chimici e cyber, invece, sono in-training, sono documentati pubblicamente nella Responsible Scaling Policy dell’azienda, e per Claude Opus 4, a maggio 2025, hanno raggiunto per la prima volta il livello ASL-3 (AI Safety Level 3), il gradino di salvaguardia che scatta quando i red team interni non riescono più a escludere che il modello dia un uplift significativo a chi voglia costruire un’arma biologica. È una scelta di ingegneria del rischio, non di ideologia.

Perché armi biologiche e sicurezza offensiva

Ci sono, nel panorama attuale delle capacità di un modello di frontiera, due aree in cui il costo dell’errore è asimmetrico rispetto al resto: non perché siano le uniche pericolose, ma perché sono le due in cui uno scivolone del sistema abilita danni catastrofici, irreversibili e scalabili in modo che nessun altro dominio consente.

Sul fronte biologico, la letteratura di biosecurity degli ultimi tre anni è stata brutalmente chiara. Il lavoro più citato è quello di Christopher Mouton e colleghi della RAND Corporation, The Operational Risks of AI in Large-Scale Biological Attacks (2024), che ha misurato in esperimento controllato quanto un modello di frontiera senza guardrail aumenti la capacità di un attaccante privo di background scientifico di produrre una catena operativa credibile per un attacco biologico su vasta scala. Il risultato non è drammatico oggi (la differenza rilevata è statisticamente modesta), ma è un baseline da cui il rischio cresce con ogni salto di capacità del modello. In parallelo, i lavori del laboratorio di Kevin Esvelt al MIT hanno mostrato che studenti senza formazione specifica riuscivano, in poche ore di conversazione con un LLM generalista non filtrato, a estrarre protocolli e mappe di catene di fornitura per patogeni pandemici. Nessun esperimento ha creato patogeni: hanno creato la catena informativa e logistica per crearli, che è la parte in cui un modello davvero aumenta le capacità di chi ha volontà distruttiva ma nessuna preparazione. È la ragione per cui la biosicurezza è la categoria coperta dalla soglia più alta nella Responsible Scaling Policy di Anthropic.

Sul fronte cyber, il quadro è ancora più operativo. Il paper di Richard Fang, Rohan Bindu, Akul Gupta e Daniel Kang dell’Università dell’Illinois, LLM Agents can Autonomously Exploit One-Day Vulnerabilities (aprile 2024), ha mostrato che GPT-4, messo davanti alla descrizione pubblica di quindici vulnerabilità note (le cosiddette one-day, scoperte ma non ancora corrette da tutti), è riuscito a sfruttarne autonomamente tredici, cioè l’87%. Senza la descrizione, il tasso crollava al 7%: il modello non trovava le falle da solo, ma se glielo dicevate era in grado di scriverne, in autonomia, l’exploit. In parole povere, il modello, senza briglia, dimezza il tempo tra la pubblicazione di una vulnerabilità e la sua produzione di massa. In parallelo, sul mercato criminale, sono comparsi LLM commerciali privi di ogni guardrail, come WormGPT e FraudGPT, venduti a 60-200 dollari al mese per generare phishing personalizzato e malware polimorfico (documentati in maniera esauriente dalle testate cybersec di riferimento, tra cui Bleeping Computer). Non sono un futuro distopico: sono un’offerta in commercio, e sono uno dei fattori dietro l’aumento del 53% degli attacchi cyber in Italia nel primo semestre 2025 misurato dall’Agenzia per la Cybersicurezza Nazionale rispetto allo stesso periodo dell’anno precedente.

C’è, sul fronte opposto, un dato che ribalta la stessa capacità: Claude Mythos, il modello offensivo che Anthropic addestra all’interno del suo Project Glasswing e che ha come partner di lancio dodici organizzazioni (tra cui AWS, Apple, Microsoft, Google, JPMorgan), ha identificato in modo autonomo oltre 10.000 vulnerabilità classificate come critical e high in progetti open source e proprietari, e i risultati vengono girati ai maintainer perché vengano corrette prima che qualcun altro le trovi con intenzioni opposte. È la stessa moneta letta dai due lati: la capacità c’è, il guardrail decide se finisce a chiudere buchi o ad aprirli. In un mondo in cui un modello senza guardrail alza il baseline di chi voglia fare male sul biologico e sul cyber, la scelta di piantare in quelle due aree i paletti più solidi non è censura: è un calcolo di tail risk, il rischio raro ma catastrofico.

Perché l’allineamento resta così difficile

Rimane la domanda più profonda: perché non si può semplicemente scrivere una regola precisa e farla rispettare al modello? La risposta è che nessuno di noi, oggi, sa scrivere una regola precisa che regga a tutti i casi limite. Il ragionamento morale umano è pieno di sfumature che si adattano al contesto: un chirurgo che chiede a un LLM di descrivere gli effetti di un composto tossico su un fegato umano vuole informazione medica; un ragazzo che pone la stessa domanda potrebbe volere lo stesso, oppure una cosa molto diversa. Il modello non ha il contesto sociale che permette a un farmacista di distinguere l’una dall’altra: ha solo la stringa di testo che gli passate.

Questo è quello che Dario Amodei, insieme a Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman e Dan Mané, nel paper Concrete Problems in AI Safety (2016), chiamano il problema della specificazione: tradurre un valore («non aiutare a fare del male») in una funzione obiettivo che si applichi correttamente in tutti i casi possibili è un compito che, se preso sul serio, riproduce la difficoltà del ragionamento etico umano nella sua interezza. La Constitutional AI di cui parlavamo prima è, in filigrana, un tentativo di ridurre l’arbitrarietà di quel compito, ma anche i principi generali vanno interpretati, e Fable è la dimostrazione fresca di quanto sia facile sbagliare l’interpretazione.

Il risultato pratico è che, allo stato dell’arte, i laboratori seri hanno di fronte una scelta di cui la comunità pubblica raramente parla: calibrare il modello sul falso negativo o sul falso positivo. Un modello calibrato per minimizzare i falsi positivi (poche richieste innocue rifiutate) inevitabilmente aumenta i falsi negativi (qualche richiesta pericolosa passa). Un modello calibrato al contrario blocca troppi utenti benintenzionati e ne fa fuggire una parte verso alternative non allineate. Non esiste una configurazione che azzeri entrambi, esiste solo una scelta di dove far cadere il maggior peso dell’errore, e sulle categorie bioweapon e cyber offensivo Anthropic ha scelto di far cadere il peso sui falsi positivi. È una scelta discutibile, ma non è una scelta stupida.

Il contesto politico non aiuta a mantenere il discorso lucido. L’Executive Order 14110 di Biden, firmato il 30 ottobre 2023, che imponeva ai laboratori di condividere i risultati dei red team con il governo federale, è stato revocato da Trump il 20 gennaio 2025 e sostituito dall’Executive Order 14179 del 23 gennaio: il perimetro federale di riferimento, oggi, è più magro di quanto fosse due anni fa, e la responsabilità di dove piantare i paletti torna quasi tutta sulle singole aziende. Chiedere ad Anthropic di allentare i propri guardrail, in questo contesto, non significa liberare la ricerca: significa spostare la difesa dell’intero perimetro di rischio sulle spalle di qualcun altro, che quasi sempre è qualcuno con guardrail più leggeri o assenti.

Un tradeoff intelligente, non un atto di censura

Chi si è lamentato del nerfing dei nuovi modelli sta guardando la punta dell’iceberg e prendendola per l’iceberg intero. Il pezzo di ghiaccio sotto è enorme, si chiama allineamento come problema tecnico non risolto, e i guardrail che vediamo in superficie sono la traduzione ingegneristica di quel problema in vincoli operativi che si possono difendere davanti a un regolatore, a una commissione parlamentare, a una vittima di un attacco. Anthropic ha deciso che quei vincoli devono essere alti su due aree specifiche perché in quelle due aree lo spread tra danno atteso e beneficio marginale è enorme. Ha reso quella scelta rinegoziabile caso per caso via feedback autenticato, e ha reso pubblica la policy che regge quella scelta. Tre cose che, messe insieme, non fanno un sistema perfetto (e il caso Fable lo mostra apertamente) ma fanno il sistema più difendibile che oggi il mercato dei modelli di frontiera sappia produrre.

C’è, nel mestiere di chi lavora seriamente su queste cose, un’idea che vale la pena portarsi a casa: il costo dell’errore va pagato prima, non dopo. Un modello che sbaglia in silenzio su una richiesta di sintesi biologica non lascia un ticket aperto in un sistema di supporto, lascia un’infrastruttura di produzione in mano a qualcuno che non doveva averla. La differenza tra pagare il costo prima (una richiesta rifiutata che magari era legittima, che magari costa mezz’ora di feedback e una conversazione con il supporto) e pagare il costo dopo (una risposta erogata a chi non doveva riceverla, con impatto potenziale a molti zeri) è talmente sproporzionata che chi lavora sul rischio la vede subito, mentre chi lavora sull’esperienza utente arriva a vederla solo dopo qualche incidente.

Chiudere il ragionamento con una difesa acritica di Anthropic sarebbe però un errore uguale e contrario a quello di chi grida al nerfing. La società di Dario Amodei non è la Chiesa, la sua constitution non è la Costituzione, e ogni policy di sicurezza che diventa segreta o unilaterale perde parte del suo valore, il guardrail nascosto di Fable è la prova plastica di quanto poco basti a incrinare la fiducia. Il compito di chi guarda queste cose dall’esterno non è applaudire: è pretendere che i guardrail siano trasparenti, che i canali di feedback siano davvero praticabili, che il perimetro delle categorie coperte sia argomentato e non solo dichiarato, che l’auditing sia possibile per chi ha titolo a farlo.

Detto questo, dire che «Fable è stato nerfato» smette di essere un lamento e comincia a essere una diagnosi corretta: sì, è stato nerfato, e la parte utile del ragionamento comincia adesso, chiedendo dove il nerfing è troppo largo, dove è troppo stretto, e come si sposta la maniglia.


Per approfondire


文章来源: https://mgpf.it/2026/07/03/l-dio-mythos-e-la-sua-gabbia-dacciao-nerfing-allineamento-e-guardrails.html
如有侵权请联系:admin#unsafe.sh