Lo scorso 18 aprile Meta ha lanciato Llama 3, la sua nuova famiglia di modelli linguistici di grandi dimensioni (LLM). L’intelligenza artificiale di Mark Zuckerberg prevede due versioni: una da 8 miliardi di parametri e l’altra da 70 miliardi. Una terza versione, ancora in fase di sviluppo, raggiungerà quota 400 miliardi.
Sebbene il numero di parametri non si traduca necessariamente in prestazioni migliori, con le due versioni intermedie di Llama 3 gli sviluppatori di Menlo Park hanno centrato il loro obiettivo, alzando l’asticella qualitativa dei modelli di AI open source. I software in questione sono infatti liberi per creatori, ricercatori, aziende e per tutte le persone che intendono metterci mano dopo averli scaricati dal sito GitHub, previa accettazione di un contratto di licenza comunitaria.
Il dualismo tra open source e closed source è da tempo un tema caldo da ben prima che ChatGPT e OpenAI si prendessero la scena mediatica globale. La libera disponibilità del codice sorgente dei programmi è stato un argomento centrale nell’evoluzione dell’informatica e della rete, anche durante le fasi embrionali del World Wide Web, prima che l’Internet of things conquistasse il mondo. Per decenni, i fautori di questa filosofia si sono scontrati con i detrattori (le aziende private che possedevano software proprietari), delineando il complesso e sfaccettato ecosistema di servizi digitali all’interno del quale oggi ci muoviamo.
L’avvento dell’AI, tuttavia, ha cambiato le carte in tavola. Nel disordinato dibattito relativo ai rischi di questa tecnologia, si dice spesso che l’ampia disponibilità di modelli aperti possa facilitare l’accesso a strumenti estremamente potenti anche a criminali e terroristi. O che, più semplicemente, contribuisca al proliferare di deepfake online.
In un recente articolo uscito su IEEE Spectrum, l’ex dipendente di Meta David Evan Harris ha messo in guardia ancora una volta dall’open source, sostenendo come la libera disponibilità di modelli AI “non censurati” possa favorire la commissione di atti illeciti su scala globale. Una posizione “concettualmente, culturalmente e giuridicamente non condivisibile”, come definita dal giurista Andrea Monti su Repubblica, in quanto “attribuisce all’open source (…) una responsabilità che non ha e non può avere”.
In questo senso, il confronto ideologico tra le parti è serrato. La stessa OpenAI, come del resto suggerisce il nome, è stata fondata nel 2015 da Sam Altman, Elon Musk e Greg Brockman come società no profit per lo sviluppo di sistemi open source, salvo poi “tradire” i suoi principi e sviluppare il chatbot più famoso di sempre seguendo una logica closed (ricevendo due tranches di investimento da Microsoft: la prima da un miliardo di dollari nel 2019 e la seconda, da 10 miliardi, nel 2023). Anche molti dei modelli più famosi e utilizzati al mondo, da Midjourney a Gemini di Google, sono basati su licenze proprietarie.
Per questo, vista la tendenza dell’intero settore, molti hanno accolto con entusiasmo la scelta di Meta di distribuire Llama in modalità aperta fin dall’annuncio del primo modello, nel febbraio 2023. Llama 3, a sua volta, è stato percepito come un possibile punto di svolta all’interno del mercato AI, un potenziale game changer dell’industria.
In realtà, c’è grande disaccordo sulla definizione stessa di AI open source, per la semplice ragione che non ne esiste una universalmente riconosciuta. Il fatto che Llama 3 sia dotato di una licenza con alcune limitazioni (per esempio il fatto che le aziende con più di 700 milioni di utenti attivi mensili debbano richiedere a Meta un’ulteriore licenza speciale – clausola pensata per evitare che il modello aiuti la concorrenza), rappresenta di per sé una violazione dei principi formulati dalla Open Source Initiative (OSI), l’organizzazione che in questi casi fa da “arbitro”.
Che vuol dire AI open source?
Secondo l’OSI (Open Source Initiative) l’AI Open Source è u sistema AI reso disponibile secondo termini che garantiscono la libertà di:
Il presupposto per esercitare queste libertà è avere accesso alla forma preferita per apportare modifiche al sistema, che deve includere:
La definizione, provvisoria e in corso di definizione, è quella contenuta nella bozza v. 0.0.8 (quella più aggiornata, datata 24 aprile 2024).
In effetti, nel caso specifico molti preferiscono utilizzare il termine open-weights, che indica una categoria che rende pubblicamente accessibili e fruibili la “struttura” e i “pesi”, cioè i parametri che il software ha acquisito durante il suo addestramento.
A ogni modo, è indubbio che esistano due tendenze nettamente opposte: la prima che punta all’apertura degli strumenti di sviluppo AI, la seconda molto più preclusiva e basata sulla realizzazione di modelli “impenetrabili”.
In questo scenario di contrapposizione, Meta gode di buona compagnia. Qualche giorno prima dell’annuncio in pompa magna di Mark Zuckerberg e compagni, un’altra azienda californiana, Databricks, ha lanciato la sua intelligenza artificiale: DBRX. Ne esistono due versioni, una base e una perfezionata, entrambe disponibili su Hugging Face, una piattaforma libera che offre una libreria di algoritmi pre-addestrati e una serie di strumenti a supporto degli sviluppatori AI.
Il modello, che ha circa 136 miliardi di parametri, ha fatto parlare di sé per le sue prestazioni in un’ampia gamma di benchmark, i “test” che permettono di valutare questi software. Secondo il sito Artificial Analysis, che effettua analisi indipendenti dei modelli di AI, DBRX è superiore – in termini di qualità generale – a Claude 3 Haiku (di Antrophic) e risulta di poco inferiore a Mistral Large (della francese Mistral). Nella classifica dei migliori modelli linguistici di MT-Bench, DBRX si piazza sopra alla “vecchia” Llama 2 di Meta (da 70 miliardi di parametri), con valutazioni superiori alle versioni obsolete di giganti “opachi” del settore, come ChatGPT 3.5 o Google Gemma 1.
Come ci è riuscito? “Il segreto è che non c’è nessun segreto”, spiega a Guerre di Rete Jonathan Frankle, Chief Neural Network Scientist a capo del team che ha creato DBRX. Il processo è stato trasparente. “In Databricks avevamo già un vantaggio: la nostra piattaforma è incredibilmente buona nell’elaborazione dei dati, nella produzione, nel benchmarking e nel monitoraggio dei risultati. Questa base ci ha permesso di realizzare il progetto”.
Databricks, del resto, era già una realtà leader nel settore della data analytics. Dopo la sua nascita nel 2013 come evoluzione di un progetto dell’Università della California, nel giugno 2023 la compagnia ha acquisito per 1,3 miliardi di dollari MosaicML, specializzata nello sviluppo di AI, in quella che è stata la più grande operazione di assimilazione della sua storia. Meno di un anno dopo, DBRX ha visto la luce. Per il suo addestramento, spiega l’azienda, ci sono voluti circa due mesi e 10 milioni di dollari.
Su un altro aspetto fondamentale del funzionamento di questi modelli, ovvero le enormi quantità di informazioni “date in pasto” alla macchina, Databricks non rivela la natura dei dataset utilizzati per fase di addestramento (per esempio non ha risposto a una domanda relativa all’utilizzo, più o meno massiccio, dei cosiddetti synthetic data).
Cosa sono i synthetic data
I synthetic data (o dati sintetici) sono informazioni generate artificialmente anziché prodotte da eventi del mondo reale. Solitamente creati utilizzando algoritmi, possono essere distribuiti per convalidare modelli matematici e per addestrare modelli di apprendimento automatico.
I vantaggi offerti dai modelli aperti, a ogni modo, sono molteplici. In primis, rendono più facile per le imprese la costruzione di data intelligence, cioè di sistemi di intelligenza artificiale “su misura” personalizzabili e adattabili in base alle proprie necessità e alla tipologia di dati da governare. Costano ovviamente meno, perché il modello di partenza è sviluppato da altri, e permettono un maggiore controllo sui risultati.
Nonostante il mercato sembri andare nella direzione dettata da OpenAI e Google, realtà come DBRX e Llama 3 “livellano il campo di gioco tra LLM open e closed source”, prosegue Frankle. “C’è stata molta segretezza intorno allo sviluppo di modelli proprietari, ma noi (Databricks, ndr) vogliamo contribuire a promuovere l’innovazione, democratizzando l’accesso a questa potente tecnologia e mettendola nelle mani di un maggior numero di imprenditori, ricercatori, startup e aziende consolidate”.
Imprese e politica, tuttavia, viaggiano su binari paralleli. Nelle sedi istituzionali in cui si è dibattuto di regolamentazione dell’AI, il tema dell’open source ha trovato inspiegabilmente poco spazio o è stato osteggiato. Persino durante la fase di stesura dell’AI Act europeo, nonostante questo approccio contribuisca a evitare proprio una delle maggiori paure espresse dai regolatori di Bruxelles: la concentrazione del potere dell’AI nelle mani di pochi grandi operatori.
“L’AI open source è trasparente e spiegabile – conclude Frankle da oltreoceano –. Ha input diversificati e consente agli utenti di avere un maggiore controllo sui propri dati. Ha molto da offrire e per questo motivo dovremmo affrontarne la regolamentazione in modo ponderato. Se si esagera con le limitazioni, si corre il rischio di perdere questi vantaggi”.
Sotto questo profilo, la Francia rappresenta un’interessante eccezione. Nel 2023 Emmanuel Macron ha annunciato un ingente finanziamento per un progetto di “digital commons”, relativo a progetti di AI generativa aperti e di produzione nazionale. Un investimento di 40 milioni di euro destinato ad attrarre un numero significativamente maggiore di capitali da parte di investitori privati. “Crediamo nell’open source”, ha dichiarato il presidente francese nel suo discorso a VivaTech, la principale conferenza tecnologica del Paese.
Nello State of Open Source Report 2023, un’indagine globale interna del settore informatico, l’80% degli intervistati ha riferito di aver aumentato l’utilizzo di software liberi nel corso dell’ultimo anno, con il 41% che ha indicato un incremento “significativo”.
Il trend riguarda anche il campo dell’AI, dove gli esempi abbondano. In ambito sanitario, per esempio, aziende come la statunitense Merative utilizzano la libreria open source TensorFlow per lo screening di immagini mediche e il miglioramento delle procedure diagnostiche. Discorso analogo per il mondo della finanza, dove la piattaforma Athena di JP Morgan sfrutta un’AI di pubblico dominio per le attività di analisi del rischio. Amazon integra l’open source per perfezionare i suoi sistemi di raccomandazione, ottimizzare le operazioni di magazzino e migliorare Alexa. Sul fronte dell’intrattenimento, realtà come Netflix e Spotify fondono soluzioni proprietarie con librerie open come PyTorch, per migliorare gli algoritmi di raccomandazione degli utenti.
Sebbene Google abbia adottato un approccio conservativo con i suoi prodotti più potenti (Gemini su tutti), i modelli Gemma rilasciati a febbraio sono liberamente accessibili, anche se l’azienda stessa li ha definiti come “open” piuttosto che “open source”. A giugno anche Apple, dopo aver rotto il lungo silenzio in tema di AI presentando Apple Intelligence, ha rilasciato 20 nuovi modelli e 4 set di dati su Hugging Face, dimostrando il suo impegno su questo fronte. Infine, alcune delle startup europee più interessanti nel campo dell’intelligenza artificiale generativa si basano proprio su una concezione open source: tra tutte, la tedesca Aleph Alpha e la britannica Stability AI (i creatori di Stable Diffusion, tra i modelli text-to-image più famosi al mondo). Ed è solo la punta di un iceberg gigantesco.
Lo scorso luglio, il co-fondatore di Hugging Face Clément Delangue ha fornito, in un post su X, alcuni numeri relativi ai modelli AI pubblicamente disponibili sulla sua piattaforma. Nella lista dei maggiori “contributor”, Meta occupava la prima posizione con 689 modelli, seguita da Google (591), Microsoft (252), Salesforce (88) e Nvidia (86). I dati, per quanto parziali, forniscono una metrica significativa dell’andamento esponenziale dell’AI open source, reso possibile soprattutto dall’apertura dei singoli algoritmi da parte di Big Tech e degli altri colossi del settore.
I progressi nell’ambito dell’intelligenza artificiale dipenderanno inevitabilmente dal futuro dell’open sourcing. La forza trainante di questa filosofia, del resto, non risiede solo nella sua capacità di “inventarsi”, ma soprattutto in quella di “reinventarsi”. Come scritto dall’investitore Michael Parekh su Medium, “le migliori innovazioni tecniche continuano a emergere ogni settimana dai laboratori di ricerca accademici, sotto forma di AI paper, insieme agli sforzi open source degli sviluppatori di tutto il mondo, per poi essere inondati di dollari di venture e creare un’esplosione cambriana di nuove startup”.