L’economia dei token e il vero prezzo dell’intelligenza artificiale

di Andrea Daniele Signorelli

Negli ultimi mesi, molte delle aziende che avevano sottoscritto contratti con OpenAI o Anthropic hanno avuto una brutta sorpresa. Lo scorso aprile, la società di noleggio auto con conducente Uber ha per esempio scoperto di aver già bruciato tutto il budget annuale destinato all’intelligenza artificiale. Una situazione simile si è verificata anche dalle parti del gigante dei supermercati Walmart, che ha introdotto in tutta fretta un limite all’utilizzo dei large language model da parte dei suoi dipendenti.

Un’azienda rimasta anonima avrebbe invece speso 500 milioni di dollari in un solo mese a causa dell’utilizzo sfrenato di Claude da parte dei suoi dipendenti, mentre persino un colosso come Meta ha imposto dei limitiall’utilizzo dei sistemi d’intelligenza artificiale generativa, come hanno fatto anche Amazon, AT&T, Brex e numerose altre società.

Che cos’è successo? Non eravamo nell’epoca del tokenmaxxing, ovvero la gara a chi usa di più l’intelligenza artificiale all’interno delle aziende? Per capire come mai la situazione sia cambiata così rapidamente basta sapere che, nel corso della prima metà del 2026, OpenAI e Anthropic hanno entrambi cambiato le condizioni dei contratti aziendali: non più una tariffa fissa anche per usare i loro sistemi più avanzati e specialistici, ma una tariffa a consumo – basata sulla quantità di “token” elaborati dai vari ChatGPT Codex, Claude Cowork e altri ancora – che ha fatto esplodere i costi in maniera imprevista.

E così, praticamente da un giorno all’altro, i token – oggetto fino a poco fa noto soltanto agli addetti ai lavori – sono diventati uno degli argomenti più discussi dai manager di mezzo mondo. A questo punto, fermiamoci un secondo: che cosa sono i token?

In sintesi estrema, i token sono l’unità di testo fondamentale che i modelli linguistici elaborano quando leggono, interpretano o generano informazioni. Nella maggior parte dei casi, un token non equivale a una parola, ma a una porzione di essa (in inglese, in media, quattro caratteri). Può però anche essere un segno di punteggiatura, uno spazio o un carattere speciale. Nel momento in cui un modello deve elaborare la frase “il gattino sta dormendo sul divano?”, la scompone in token con una forma simile a “il / gatt / ino / sta / dorm / endo / sul / divano / ?”.

Ogni volta che un modello linguistico elabora una forma testuale, indipendentemente dall’obiettivo o dalle mansioni per cui è impiegato, sta quindi elaborando una sequenza di token: li trasforma in rappresentazioni numeriche, li confronta con il contesto già ricevuto e calcola quale token abbia maggiore probabilità di venire dopo. È così che risponde a una domanda, riassume un documento, scrive codice o traduce una frase: non “capendo” le parole, ma prevedendo la sequenza di token più coerente con ciò che gli è stato chiesto. È il meccanismo noto come “next token prediction”.

Un po’ come il consumo elettrico si calcola in kilowattora o il traffico internet in gigabyte, il lavoro svolto da un’intelligenza artificiale generativa si misura in token. Con una differenza: il consumo effettivo può crescere molto rapidamente, perché non dipende solo dalla lunghezza della richiesta o della risposta finale, ma anche dalla quantità di informazioni che il modello deve leggere prima di produrla. Una domanda posta all’inizio di una chat con Claude consumerà quindi meno token della stessa domanda inserita in una lunga conversazione, perché il “contesto” che il modello linguistico deve analizzare è, nel primo caso, molto più ridotto.

Un ultimo elemento importante è che i token sono elementi linguistici nel caso degli LLM, mentre nei modelli che generano immagini possono corrispondere a porzioni di immagine, nei modelli audio a frammenti di suono, nei modelli video a sequenze di informazioni che combinano immagini, movimento e durata. Il principio però resta lo stesso: qualunque sia il contenuto generato — testo, voce, musica, immagini o video — il modello non lo elabora come un blocco unico, ma lo scompone in unità più piccole, le trasforma in numeri e lavora su quelle.

Un altro aspetto importante è che nel corso degli anni, grazie alla crescente efficienza dei modelli, il costo dei token è crollato: se nel 2023 il prezzo di un LLM come GPT-4 era di 30 dollari per milione di token in fase di input (quindi il testo che inseriamo noi) e di 60 dollari in output (quindi quello generato dall’AI), oggi GPT-5.5 costa rispettivamente 5 e 30 dollari. Secondo alcune stime, dal 2020 al 2026 i prezzi medi per token sono calati addirittura di 600 volte.

Ma se il prezzo dei token è crollato – e possiamo sostenere che sia sceso significativamente anche per le società che sviluppano LLM, pur in assenza di dati trasparenti a riguardo – com’è possibile che il passaggio a una tariffa a consumo abbia fatto esplodere i costi, al punto da consumare in pochi mesi l’intero budget annuale di Uber e costringere Meta a limitare l’uso dell’intelligenza artificiale in ufficio?

La ragione è duplice. Da una parte, i modelli più avanzati e basati su “ragionamento” – che scompongono la richiesta in più passaggi – consumano molti più token delle loro controparti tradizionali (e spesso forniscono risposte più lunghe). Dall’altra, la diffusione dei modelli linguistici e il loro utilizzo spesso intensivo (e non mirato) hanno provocato un enorme aumento dei token da elaborare. Un singolo dipendente che usa ogni giorno un modello di frontiera può quindi consumare molti più token rispetto anche solo a due anni fa.

Unendo questi due aspetti, si capisce perché Google – come spiegato dal CEO Sundar Pichai – sia passato in un trimestre da 10 a 16 miliardi di token elaborati ogni minuto. OpenAI ha invece dichiarato che la sua piattaforma API (cioè l’infrastruttura attraverso cui aziende e sviluppatori collegano i propri software ai modelli di OpenAI) è passata da 6 a oltre 15 miliardi di token al minuto tra l’autunno 2025 e la primavera 2026, dopo essere già cresciuta di circa venti volte nei due anni precedenti.

Questa impennata del consumo di token è stata a lungo nascosta dalle tariffe fisse ed è invece improvvisamente diventata evidente con il passaggio a una tariffazione a consumo: “L’intelligenza artificiale è oggi la voce di spesa che sta aumentando più rapidamente dei budget aziendali”, si legge in un report Deloitte di inizio anno. “Alcune società hanno affermato che oggi l’AI consuma fino alla metà della loro spesa in tecnologie dell’informazione. Nonostante il prezzo unitario dei token stia calando, la spesa complessiva delle aziende per i sistemi di intelligenza artificiale, e la loro scala di utilizzo, stanno aumentando. Il numero di utenti, la complessità dei modelli e l’intensità dei carichi di lavoro porteranno probabilmente a un maggiore consumo di token e, di conseguenza, a costi più elevati”.

Il passaggio a una fatturazione a consumo è probabilmente il principale responsabile dell’impennata del fatturato di Anthropic, passato dai 4,8 miliardi di dollari del primo trimestre 2026 ai 10,9 miliardi attesi per il secondo trimestre. Sarà però interessante capire che cosa succederà nel trimestre ancora successivo, quando i manager delle aziende avranno definitivamente fatto i conti con le spese fuori controllo per utilizzare Claude Code, Cowork o gli altri sistemi avanzati di Anthropic: “I costi della computazione sono ormai diventati una priorità per i direttori finanziari e per i consigli d’amministrazione”, ha spiegato al Financial Times Costi Perricos, responsabile AI di Deloitte. “[OpenAI e Anthropic] hanno insegnato a utenti e aziende che l’intelligenza artificiale fosse economica o addirittura gratis, ma le cose non stanno affatto così”.

Continua a leggere su Guerredirete.it

Discussione su questo Post

Assolutamente, procediamo.