Podcast RSI - Sora genera video sintetici perfetti in HD

È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate qui sul sito della RSI (si apre in una finestra/scheda separata) e lo potete scaricare qui.

Le puntate del Disinformatico sono ascoltabili anche tramite iTunes, Google Podcasts, Spotify e feed RSS.

---

CLIP: “Hai mai messo in dubbio la natura della tua realtà?” dalla serie TV Westworld]

Riprendo questa frase emblematica, tratta dalla serie televisiva di fantascienza Westworld, a distanza di poco meno di un anno da quando l’ho citata per la prima volta in questo podcast. Era la fine di marzo 2023 e stavo raccontando la novità dell’arrivo dei primi generatori di immagini tramite intelligenza artificiale capaci di produrre immagini praticamente indistinguibili dalle foto reali, che erano un salto di qualità tecnica enorme rispetto alle immagini da fumetto o da videogioco di prima.

Undici mesi dopo, dalle immagini sintetiche fotorealistiche, che erano già uno shock non solo tecnologico ma anche e soprattutto culturale, siamo già arrivati ai video realistici generati dai computer e indistinguibili dai video reali.

OpenAi ha infatti presentato Sora, un software di intelligenza artificiale capace di generare video fotorealistici, in alta definizione, lunghi fino a un minuto. E qualcuno già parla di collasso della realtà mediatica [Ars Technica], perché se non possiamo più credere alle foto e nemmeno ai video, che sembravano impossibili da falsificare, e se possiamo generare qualunque ripresa video semplicemente descrivendola a parole, la fiducia già traballante nei mezzi di comunicazione finisce a pezzi, travolta da fiumi di video falsi a supporto dell’ondata di fake news, e tutta una serie di mestieri rischia di diventare inutile. A cosa servono fotografi, operatori di telecamere, scenografi, attrezzisti e gli stessi attori se chiunque, con un computer di media potenza, può ricreare qualunque scenografia e qualunque volto in qualunque situazione?

Benvenuti alla puntata del 23 febbraio 2024 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Il 15 febbraio scorso OpenAI, la società che sta dietro ChatGPT e molti altri prodotti di enorme successo basati sull’intelligenza artificiale, ha annunciato il suo nuovo software Sora con una serie di video che hanno comprensibilmente lasciato moltissimi a bocca aperta e con quel brivido di fascino e disorientamento che si prova quando ci si rende conto di essere di fronte a un cambiamento epocale, a qualcosa che non trasforma solo la tecnologia ma rischia di trasformare l’intera società.

Se non avete ancora visto questi video di Sora, guardateli: li trovate presso Openai.com/sora. Sono effettivamente impressionanti. Per esempio, in uno di questi video una donna elegantemente vestita passeggia di notte per le vie di Tokyo, sull’asfalto bagnato che riflette perfettamente la scena, e anche nei suoi occhiali c’è il riflesso dell’ambiente. Una sequenza che avrebbe richiesto trasferte, permessi di ripresa, addetti alle luci, costumisti, truccatori, e ovviamente una modella o un’attrice, si genera oggi interamente al computer, semplicemente dicendo la seguente frase in inglese:

“Una donna elegante cammina lungo una via di Tokyo piena di insegne al neon animate con colori caldi. Indossa una giacca di pelle nera, un vestito rosso lungo e stivali neri, e porta una borsetta nera, occhiali da sole e rossetto rosso. Cammina con aria sicura di sé e con disinvoltura. La strada è bagnata e riflettente, creando un effetto specchio sulle luci colorate. Circolano numerosi pedoni”*

* In originale: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Chiunque lavori nel mondo dei media sta probabilmente avendo una crisi di panico all’idea di essere sostituito di colpo da una macchina, a tariffe e con velocità di realizzazione con le quali non può assolutamente competere. E non sostituito fra qualche anno, come sembravano indicare i primi, timidi esperimenti di video sintetici di undici mesi fa, ma subito, quando non ci si è ancora ripresi dallo sconquasso delle immagini sintetiche che hanno eliminato il lavoro di tanti fotografi, anche se Sora non è ancora pubblicamente disponibile come lo è invece ChatGPT e lo stanno provando solo alcuni artisti visivi e realizzatori di film.

Che la rivoluzione dei video sintetici fosse nell’aria e sarebbe arrivata prima o poi era chiaro a tutti; che sarebbe arrivata così in fretta probabilmente se lo aspettavano in pochi. Ma è successo.

O almeno così sembra dai commenti di molti addetti ai lavori e del pubblico a questo annuncio di OpenAI. Ma se proviamo a scremare il sensazionalismo dei primi e le paure dei secondi viene a galla una situazione piuttosto differente. Forse ce la possiamo cavare con un panico controllato.

La valle inquietante

Una delle prime cose che si notano in questi video dimostrativi, una volta superato lo shock iniziale, è che manca l’audio, che a quanto pare Sora non è ancora in grado di generare sincronizzandolo con le immagini. Ma l’audio si può sempre generare in seguito, usando tecniche tradizionali, come il doppiaggio o il foley, il lavoro dei rumoristi.

L’altra particolarità di questi video sintetici di OpenAI è la fluidità dei movimenti delle persone e degli animali, che risulta leggermente dissonante rispetto alla realtà. In altri di questi video dimostrativi, un gatto e un cane corrono e saltano, ma c'è qualcosa che non va nei loro movimenti: sono quasi perfetti, ma è un quasi che rompe completamente l’illusione.

Il nostro cervello ha milioni di anni di esperienza e di evoluzione su cui contare per il riconoscimento dei movimenti delle persone e degli animali familiari, e per ora i video sintetici, a differenza delle foto sintetiche, sono nel pieno della cosiddetta uncanny valley o valle inquietante, ossia quella teoria, proposta dal professore di robotica Masahiro Mori ben 54 anni fa, nel 1970, secondo la quale un oggetto animato produce una risposta emotiva favorevole se non somiglia affatto a un essere umano o a un animale reale oppure se è assolutamente identico a quello reale, ma produce invece repulsione, inquietudine e rifiuto se è molto simile ma non identico all’originale. Quella zona di quasi-somiglianza è la Valle Inquietante, situata fra i due pianori della credibilità.

I personaggi digitali di Toy Story, per esempio, funzionano emotivamente perché non hanno la pretesa di essere persone reali: sono giocattoli e quindi i loro movimenti possono essere innaturali e anche caricaturali senza causare disagio o disorientamento. Gli animali sintetici fantastici di Avatar e di altri film risultano credibili perché non abbiamo alcun termine di paragone con la realtà. Invece gli animali fotorealistici del remake del Re Leone o della Sirenetta, o anche l’Indiana Jones ringiovanito del Quadrante del Destino, per quanto siano il frutto di immense fatiche di tecnici e animatori, spesso stentano a convincerci: basta un minimo movimento innaturale per spezzare la magia, l’empatia e l’immedesimazione.

La terza anomalia di questi video di OpenAI emerge soltanto se si ha l’occhio estremamente allenato e ci si sofferma sui dettagli: alcune persone sullo sfondo appaiono dal nulla e poi svaniscono, e la donna che cammina per le vie di Tokyo a un certo punto inverte le proprie gambe. Tutte cose che al primo colpo d’occhio non verranno notate da nessuno, specialmente se la scena fa parte di una sequenza che ha un montaggio molto dinamico, ma sono cose che rendono questi video inadatti a un uso per un film o un telefilm di qualità.

Il quarto aspetto insolito di Sora è la sua fisica, ossia il modo in cui gli oggetti si comportano. Uno dei video rilasciati da OpenAI mostra un bicchiere appoggiato su un tavolo. Di colpo il liquido rosso contenuto nel bicchiere attraversa il vetro del bicchiere e si spande sul tavolo, senza motivo, mentre il bicchiere fa un salto altrettanto senza motivo, si inclina e poi ricade sul tavolo flettendosi, cosa che un bicchiere di vetro non farebbe mai.

Da questo e altri esempi risulta chiaro che Sora non permette ancora di sostituire in tutto e per tutto il lavoro manuale delle persone, ma produce già ora risultati sufficienti per le riprese generiche. Martin Scorsese o Christopher Nolan non hanno motivo di preoccuparsi, perché realizzano prodotti finemente cesellati, ma Sora mette invece a repentaglio tutto il mondo delle riprese stock, ossia degli spezzoni generici che vengono realizzati e venduti per esempio per creare i video industriali o promozionali o le panoramiche e le riprese ambientali nei telefilm.

Nicchie e autenticità

Se lavorate in questi settori, insomma, conviene che impariate in fretta come funzionano questi software e li adottiate, perché o ci si adatta o si perisce. Oppure si trasforma il proprio mestiere, trovando una nicchia specialistica che il software non riesce a coprire.

E questa nicchia c’è: anche se OpenAI sottolinea orgogliosamente, nel documento tecnico che ha rilasciato insieme ai video, che Sora migliora semplicemente aggiungendovi potenza di calcolo e che quindi certe limitazioni di oggi potrebbero svanire domani, chi si occupa già di immagini sintetiche fisse sa che è relativamente facile ottenere un’immagine che somiglia grosso modo a quella desiderata, ma convincere un’intelligenza artificiale a creare esattamente un’immagine che avevamo in mente è difficilissimo, e questo sembra essere un limite intrinseco del suo modo di generare immagini, che non dipende dalla potenza di calcolo e non è rimediabile semplicemente spendendo altri gigadollari in hardware.

L’intelligenza artificiale, insomma, sta trasformando anche questo settore lavorativo, come ha già fatto per tanti altri, dalla scrittura alla traduzione alla musica alla grafica, ma in questo caso specifico ha anche un effetto molto più perturbante a livello sociale.

Se già adesso Midjourney o Stable Diffusion stanno mettendo in crisi l’informazione permettendo di produrre immagini sintetiche che vengono spacciate per vere, alimentando la propaganda, le truffe e la produzione di fake news a basso costo, possiamo solo immaginare cosa succederà quando anche i video che vengono pubblicati online dovranno essere considerati inattendibili perché potrebbero essere stati generati dall’intelligenza artificiale. Non potremo più credere a niente di quello che vediamo sullo schermo e dovremo diffidare di tutto, con il rischio di sprofondare nell’apatia.

Fra l’altro, questo vuol dire non solo fake news, ma anche per esempio che i sistemi di riconoscimento facciale usati da molti servizi e da molte banche online o dai sistemi di controllo degli accessi potranno essere beffati e in alcuni casi lo sono già.

Ma in realtà c’è già una soluzione a questo rischio: il primo passo è definire delle autorità di certificazione dell’autenticità dei video. Se un video viene depositato presso uno o più enti indipendenti, che ne garantiscano l’integrità attraverso strumenti matematici appositi, che esistono già e vengono già applicati in altri settori, come quello giudiziario per esempio per garantire l’integrità delle registrazioni audio e video degli interrogatori, allora si può stare tranquilli che quel video è reale.

Inoltre si può sempre ricorrere alla catena delle garanzie: se un video viene pubblicato da una testata giornalistica affidabile ed è stato girato da un reporter affidabile, allora ci si può ragionevolmente fidare. Mai come oggi, insomma, il giornalismo può avere un ruolo chiave nell’arginare lo tsunami delle fake news.

Ma per avere questo ruolo è indispensabile imporre standard di verifica nelle redazioni che oggi, purtroppo, spesso scarseggiano. Si prende a volte la prima immagine trovata su Internet chissà dove e la si sbatte in prima pagina; si spacciano spezzoni di videogiochi per scene dai fronti di guerra; e cosi via.

Non è solo un problema redazionale del giornalismo: le immagini sintetiche vengono pubblicate senza controllo anche da riviste scientifiche irresponsabili. Un caso recentissimo e particolarmente memorabile ci è stato regalato dalla rivista Frontiers in Cell and Developmental Biology, che ha pubblicato in un suo articolo una illustrazione scientifica dei genitali di un ratto vistosissimamente generata dall’intelligenza artificiale. Lo si capiva dalle didascalie, che erano parole senza senso, e lo si capiva soprattutto dalle dimensioni colossalmente impossibili dei testicoli del superdotato roditore.

Nessuno ha controllato, né i ricercatori autori dell’articolo né i redattori, e così l’articolo scientifico è stato pubblicato con l’immagine sintetica. La rivista ha così perso ogni credibilità perché è stata colta clamorosamente in fallo.

Se vogliamo sfruttare i benefici dell’intelligenza artificiale senza farci travolgere dai rischi, non ci servono mirabolanti tecnologie o gadget salvifici per rivelare quando un’immagine o un video sono sintetici, come chiedono in molti. Ci basta creare una filiera di autenticazione e controllo, gestita da esseri umani competenti, con procedure redazionali rigorose, e abituarci all’idea che d’ora in poi tutto quello che vediamo muoversi sullo schermo rischia di essere falso se non è stato verificato da questa filiera.

In altre parole, ci basta cambiare metodo di lavoro, e questa è una decisione che non dipende né dalla potenza di calcolo né dalla tecnologia, ma dipende dalla nostra volontà. Il modo in cui reagiremo alla sfida dell’intelligenza artificiale sarà un perfetto indicatore della nostra intelligenza naturale.

Fonte aggiuntiva: Mashable.