domenica, Dicembre 22, 2024

L’IA generativa: video di arte o inganno?

INCREIBILE ESPLOSIONE QUALITATIVA DEI Video GENERATI DALL’IA: UN’ARTE DELLO STATO DELL’ARTE

L’IA non è nata il 30 novembre del 2022 con il lancio pubblico di ChatGPT di OpenAI. Esiste da molti anni anche sugli Smartphone sotto forma di algoritmi di machine learning e deep learning, per esempio per il riconoscimento di Immagini, la traduzione automatica, il riconoscimento vocale, o per strumenti di upscaling in tempo reale come il DLSS delle schede grafiche di Nvidia.

L’IA GENERATIVA, UNA BOMBA ESPLOSA IN INTERNET

Nel novembre del 2022, con ChatGPT, però, è diventata mainstream un’altra manifestazione dell’IA, che fa comunque uso di tecniche di deep learning. Si tratta dell’“IA generativa”, che è in grado di generare nuovi contenuti sfruttando e mettendo in relazione i dati sui quali è stata addestrata.

La novità di poter creare contenuti apparentemente dal nulla ha aumentato l’interesse per questo tipo di Intelligenza Artificiale, dando vita a una sua espansione in molteplici direzioni e da parte di diverse aziende, tra cui anche Startup nate in un lampo.

La fioritura dell’IA generativa è stata così esplosiva che alcune società hanno cambiato il nome ai loro prodotti in corso d’Opera (per esempio, Bing Chat diventato Copilot, o Bard trasformatosi in Gemini) e le ricerche scientifiche nel settore si sono tradotte in IA generative per nuovi scopi d’uso e anche con capacità e potenze sempre maggiori.

SEBBENE CHATGPT SIA LO STRUMENTO IA CHE HA CREATO PIÙ CLAMORE…

Si può dire che l’IA generativa sia partita dai modelli capaci di creare immagini per poi arrivare alle IA in grado di generare video, testo e audio da prompt testuali o usando immagini sorgente.

Poiché Internet è fatta di testo, immagini, video e audio, è evidente che avere IA in grado di creare contenuti di questo tipo possa essere allo stesso tempo entusiasmante e allarmante, soprattutto se si mette in relazione l’importanza sempre maggiore che sta avendo il video nei contenuti social e sociali (leggasi TikTok) e la disarmante potenza degli ultimi modelli di IA capaci di creare video che sembrano reali.

VIDEO FATTI DALL’IA SEMPRE PIÙ REALI…

I primi video generati dalle IA, più che per la qualità dei filmati, hanno suscitato interesse per la possibilità di poterli creare. Hanno aperto la porta a un’abilità nella creazione dei contenuti fino a quel momento conosciuta solo da una stretta cerchia di esperti del settore.

Nel settembre del 2022 Meta presentò Make-A-Video: un modello da far cadere la mascella per la sua possibilità di creare video dalla loro descrizione. A quei tempi si poteva sorvolare sul fatto che la qualità non fosse eccelsa.

Qualche settimana dopo fu il turno di Google, con il suo Imagen Video di prima generazione. La qualità dei filmati generati si attestava dalle parti di Make-A-Video di Meta, anche per la durata degli stessi, compresa tra i 4 e i 5 secondi.

A partire dai primi mesi del 2023, ha iniziato a mostrare i muscoli Runway AI, la startup di IA generativa che ha co-creato il modello text-to-image Stable Diffusion. Il suo Runway Gen2 è capace di creare video dal testo, dalle immagini, da altri video, da maschere di soggetti e può implementare tecniche di inpainting.

È uno strumento molto potente – utilizzabile a pagamento attraverso un sito web – che può produrre filmati lunghi fino a 16 secondi; ma a marzo del 2023, Runway AI lo ha presentato con questo filmato non molto entusiasmante.

Tra i big, Google è arrivata a colmare il gap con Lumiere, un modello di diffusione da testo a video progettato specificamente per sintetizzare filmati che ritraggono movimenti realistici, diversificati e coerenti. Ma si tratta ancora di un modello in fase di ricerca e non immediatamente utilizzabile da un utente con un account Google.

Ci sono anche startup come Pika, che recentemente ha lanciato il suo servizio di generazione a pagamento, ma che ha scelto questo video come sfondo della home, che è sì interessante ma non rivoluzionario.

Poi è arrivato Sora, di OpenAI, la stessa società che ha dato i natali a ChatGPT; e la generazione di video da parte dell’Intelligenza Artificiale ha fatto un improvviso salto in avanti di diverse generazioni.

Secondo quanto dichiarato da OpenAI, Sora può creare video lunghi fino a 60 secondi e, con certi limiti, può produrre filmati che abbiano una coerenza anche dal punto di vista della fisica.

SORA NON È UN MODELLO PUBBLICO, ED È ANCORA SOTTO ESAME…

Da parte di esperti in aree come la disinformazione e i contenuti di odio; ma gli esempi mostrati dai creativi scelti da OpenAI per metterlo alla prova sono strabilianti.

Tuttavia, non mancano esempi meno riusciti, come quello dei cagnolini che si clonano.

Pochi giorni fa Alibaba, la ciclopica multinazionale tecnologica cinese, ha voluto prendere parte ai giochi, pubblicando una ricerca su EMO (Emote Potrait Alive): un modello in grado di mettere insieme l’immagine di un volto e un file audio vocale per creare un filmato in cui l’immagine sorgente prende vita e parla, rispettando anche i movimenti delle labbra.

L’esempio di Audrey Hepburn è scioccante se si pensa che può essere scambiato con una certa Sicurezza per un filmato reale, soprattutto durante lo scrolling compulsivo tipico dei social.

Ci sono altri esempi di EMO in cui invece viene mostrata la sua capacità di far “cantare delle immagini”, magari a loro volta create da un modello di IA generativa. Ma tra queste ci sono anche Leonardo di Caprio e la Monna Lisa.

A CHI CREDERE?

Tutti questi strumenti per creare video dal nulla, e in special modo quelli più performanti come Sora ed EMO, scatenano almeno tre temi di discussione.

Il primo è l’incredibile impatto sulla creatività e sulla produzione di video per scopi che finora richiedevano processi diversi e più complessi. Si pensi per esempio al lipsync del personaggio di un videogioco, o uno stesso messaggio pubblicitario recitato da una stella del Cinema in diverse lingue e con movimenti labiali corretti a seconda dell’idioma.

Il secondo tema di discussione riguarda l’impatto che questi modelli hanno sui lavori che potrebbero andare a sostituire. Nel giro di pochissimi mesi abbiamo visto salti in avanti generazionali considerevoli, tali per cui non è impossibile immaginare che tra due anni una sola persona possa generare con un prompt uno spot video di 30 secondi con una qualità di base sufficiente a completare il lavoro con pochi tocchi extra.

L’ultimo tema di discussione è il più delicato e riguarda la sicurezza. Avere filmati che possono essere scambiati per veri significa non poter più credere a nulla di quello che viene condiviso e, anche grazie alla velocità con la quale l’IA generativa si diffonde, si fa fatica a immaginare un dispositivo di legge che possa contenerla e renderla innocua.

L’Europa ci sta provando con l’AI Act, ed iniziative private di grandi aziende (come Microsoft, Amazon, Adobe, Nvidia, Meta, Anthropic, Stability AI e TikTok) hanno dato vita ad accordi per combattere l’uso fraudolento dell’IA.

Tuttavia, considerando che questi strumenti possono essere usati e creati anche da regimi politici oppure odiatori immuni a qualsiasi regolamentazione internazionale, è difficile non pensare a un mondo che nel corso del tempo diventerà sempre più sospettoso rispetto a ciò che un tempo avrebbe potuto essere rappresentato solo dalla realtà.

ARTICOLI COLLEGATI:

ULTIMI ARTICOLI: