Nov 10, 2023 Approfondimenti, Attacchi, Minacce, RSS
La diffusione dell’intelligenza artificiale ha spostato l’attenzione degli attaccanti su questi sistemi: i cyber criminali stanno studiando nuove tecniche per colpire i modelli e avere un’opportunità in più per interrompere le operazioni di business.
Per fare ciò spesso gli aggressori evitano attacchi diretti ai sistemi di IA per non esporsi e venire individuati dai sistemi di difesa; al contrario, preferiscono agire sulle pipeline dei dati, ovvero nei flussi di azioni che vengono applicate alle informazioni prima di essere utilizzate dai modelli.
Joel Yonts, ricercatore di cyber sicurezza, ha condiviso un estratto del suo libro “Secure Intelligent Machines” dove illustra alcuni metodi per manipolare i dati tramite compromissione delle pipeline di dati.
In generale i cyber criminali preferiscono cambiare il meno possibile e usare i tool e le funzionalità esistenti configurandoli per scopi malevoli (i cosiddetti attacchi “Living-off-the-land”); in modo analogo, introducendo dei piccoli cambiamenti alla pipeline si corre meno il rischio di essere individuati dai tool di sicurezza.
Una delle tecniche più semplici per farlo è eliminare delle istanze dal dataset di addestramento del modello. Ciò vale in particolar modo per i sistemi di apprendimento supervisionato e per i flussi di dati che passano attraverso delle pipeline prima di essere elaborati.
L’attaccante sostanzialmente potrebbe cancellare determinate istanze definendo delle regole di “drop” che rispondono a specifiche condizioni. Un altro modo è compromettere i record dati di interesse in modo che i processi di pulizia cancellino i dati alterati.
Yonts spiega che i modelli di machine learning generalmente non riescono a fare previsioni se il dataset di addestramento contiene valori nulli; per questo motivo, le pipeline eliminano tutti i record che possono compromettere il funzionamento del modello. Ciò che potrebbe fare un aggressore è quindi modificare i record inserendo dati nulli in modo che non arrivino al modello.
Ancora più semplicemente, gli attaccanti possono aggiungere logiche di trasformazione inline, cioè direttamente nei dati. Le alterazioni in questo caso riguardano la modifica delle etichette dei record o la scala numerica di una feature. Per esempio, un aggressore potrebbe modificare i valori monetari di azioni specifiche oppure modificare istanze di dati dei droni affinché utilizzino una scala sbagliata nel riconoscimento delle immagini.
Un altro modo per modificare i dati consiste nell’iniettare automaticamente informazioni malevole prima che il dataset raggiunga l’ambiente di training. Se un attaccante riesce a prendere il controllo del processo, può iniettare dati malevoli indiscriminatamente, senza modificare la pipeline o i dati già caricati.
Gli attaccanti possono sfruttare il controllo che hanno sulla pipeline anche per ottenere dati sensibili; in questo caso è sufficiente modificare la pipeline aggiungendo delle operazioni di scrittura su file o di invio a un server esterno. Nel definire questi script, gli attaccanti possono aggiungere logiche di filtraggio per esfiltrare soltanto i dati di loro interesse.
Infine, se l’obiettivo degli aggressori è semplicemente interrompere l’esecuzione del modello può avvenire una vera e propria “distruzione” della pipeline o del set di dati usato per l’addestramento. Un attacco ransomware insieme alla corruzione dei sistemi di backup, se di successo, blocca le operazioni in corso. L’attività non è strettamente legata al tema dell’intelligenza artificiale, specifica Yonts, ma un attaccante potrebbe anche sfruttare i processi della pipeline per orchestrare la distruzione in massa dei dati.