Gen 12, 2024 Approfondimenti, Attacchi, Minacce, RSS
Uno dei problemi principali nel campo dell’intelligenza artificiale sono gli attacchi di adversarial machine learning, ovvero tutti quegli attacchi volti a compromettere il corretto funzionamento dei sistemi di apprendimento automatico usando input creati ad hoc.
Per questo motivo NIST, il National Institute of Standards and Technology degli Stati Uniti, ha pubblicato un documento approfondito dove si identificano i principali tipi di attacco contro i sistemi di machine learning e le possibili mitigazioni al fine di aiutare sviluppatori e aziende a riconoscere e gestire i rischi dei sistemi.
“Forniamo una panoramica delle tecniche e delle metodologie di attacco che prendono in considerazione tutti i tipi di sistemi di intelligenza artificiale. Descriviamo anche le attuali strategie di mitigazione riportate in letteratura, ma queste difese attualmente non hanno garanzie solide di eliminare completamente i rischi. Incoraggiamo la comunità a proporre soluzioni migliori” ha affermato Apostol Vassilev, informatico del NIST e uno degli autori della pubblicazione.
L’Istituto sottolinea che, poiché i sistemi si basano su grandi volumi di dati per funzionare, l’affidabilità dei dataset è uno dei problemi più sentiti: non solo le fonti di dati potrebbero essere non attendibili, ma i cybercriminali possono corrompere le informazioni, sia in fase di addestramento che durante l’operatività vera e propria.
“Poiché i dataset usati per addestrare l’IA sono troppo grandi per essere monitorati efficacemente dalle persone, non c’è ancora un modo infallibile per proteggere l’IA dagli errori” scrive l’Istituto.
Il documento considera quattro principali tipi di attacco e li classifica ulteriormente in base ad altri criteri, quali l’obiettivo dell’attaccante, le capacità e la conoscenza in possesso.
Gli attacchi di evasion (evasione) avvengono dopo che un sistema è stato messo in funzione e consistono nell’alterare gli input per cambiare il modo in cui il sistema risponde. Tra gli esempi principali ci sono gli attacchi che colpiscono i veicoli a guida autonoma: un attaccante potrebbe alterare la segnaletica stradale, sia i cartelli che i segnali orizzontali, per compromettere il funzionamento dell’algoritmo e creare situazioni di pericolo.
Gli attacchi di poisoning (avvelenamento) avvengono invece durante la fase di training tramite l’introduzione di dati corrotti. Il NIST riporta come esempio l’inserimento di tracce audio con linguaggio inappropriato tra record di conversazioni, così che il chatbot impari a usare certe parole o espressioni quando interagisce con un utente.
Gli attacchi di privacy si verificano durante lo sviluppo dei sistemi e mirano a ottenere informazioni sensibili sull’algoritmo o sui dati di training per usarli in maniera malevola. Un attaccante può porre delle specifiche domande al chatbot per ottenere informazioni sul suo funzionamento e usarle per effettuare il reverse engineering e individuare i punti deboli del modello; questo consente di individuare le fonti di addestramento del modello e inserire esempi malevoli per fare in modo che l’IA fornisca risposte errate.
Quest’ultima attività rientra negli attacchi di abuse volti a inserire informazioni non corrette in una sorgente dati, come una pagina web o un documento disponibile online dai quali il modello apprende. Diversamente dagli attacchi di avvelenamento, in questo caso l’attaccante compromette la sorgente dati in uso.
Gli autori del documento sottolineano che la maggior parte degli attacchi è facile da eseguire e non richiede conoscenze approfondite; al contrario, fare in modo che il sistema disimpari certi comportamenti e logiche è molto complesso. La guida offre numerose indicazioni su come mitigare i rischi, anche se gli autori specificano che le difese in uso sono incomplete e che gli sviluppatori devono essere coscienti di questi limiti.
“Nonostante i notevoli progressi compiuti dall’IA e dall’apprendimento automatico, queste tecnologie sono vulnerabili agli attacchi che possono causare guasti spettacolari con conseguenze disastrose” ha spiegato Vassilev. “Esistono problemi teorici di sicurezza degli algoritmi di IA che semplicemente non sono ancora stati risolti. Se qualcuno dice il contrario, è un ciarlatano”.