Sora: cos'è e come funziona il tool di OpenAI che trasforma testi in video - Borsa&Finanza
Cerca
Close this search box.

Sora: cos’è e come funziona il tool di OpenAI che trasforma testi in video

Mammut lanosi giganti generati dall'IA di Sora

OpenAI ha ufficialmente annunciato il lancio di Sora, un nuovo strumento di intelligenza artificiale generativa che potrà avere un impatto significativo sul mercato. La casa madre di ChatGPT sta lavorando ad un’evoluzione dei chatbot che consentono di creare immagini, disegni e illustrazioni a partire da un semplice testo. L’obiettivo di Sora è generare filmati complessi fornendo alla piattaforma una lineare indicazione testuale, senza partire da foto caricate dall’utente. L’algoritmo è stato creato da Bill Peebles e Tim Brooks, con il sistema sviluppato da Connor Holmes e la consulenza di dodici ricercatori internazionali.

 

Sora: cos’è il nuovo tool di OpenAI

Non ancora rilasciato al pubblico, neanche in versione di prova, Sora è un’IA generativa text-to-video: permette all’utente di creare dei video ad alta definizione utilizzando descrizioni testuali. È infatti sufficiente fornire una descrizione o scrivere una serie di parole chiave e l’algoritmo genera un file MP4 ad hoc che rappresenta il concetto espresso. Il video può avere una durata fino a 60 secondi ed essere personalizzato, ad esempio simulando la presenza di più videocamere e moltiplicando i punti di vista.

La particolarità di Sora è la sua capacità di catturare il mondo in movimento. In futuro tutti potranno utilizzarlo: non servono competenze specifiche e corsi di regia alle spalle. Bastano una buona conoscenza della lingua e una chiarezza espositiva, oltre a stimolare la creatività come se si stesse scrivendo una sceneggiatura sintetica e semplificata per un film. In aggiunta, il modello è in grado di partire da un’immagine fissa e di generare un video animandolo con estrema precisione, oppure di prendere un video esistente ed estenderlo fino a un minuto o riempire i fotogrammi mancanti.

La presentazione di Sora sul mercato ha tempi lunghi soltanto perché OpenAI intende prima risolvere potenziali problemi legati alla violazione del diritto d’autore, alla disinformazione e alla produzione di video falsi fatti passare per veri. È per evitare ogni tipo di rischio che al momento l’azienda californiana ha concesso l’accesso soltanto ad artisti visivi, designer e registi per ottenere un feedback su come far progredire il modello.

Il tool tornerà utile a tutti i professionisti della creatività per elaborare prototipi di scene complesse con svariati personaggi, tipi specifici di movimento e dettagli accurati dei soggetti protagonisti e dello sfondo. Al realismo delle immagini si unisce la qualità elevata sia come risoluzione che nella gamma dinamica. In vista si prospetta un’autentica rivoluzione per i creatori che fanno video e reel su social network come Instagram e TikTok, ma anche per le troupe cinematografiche o gli aspiranti registi che avranno a disposizione un mezzo di fondamentale aiuto nella fase di pre-produzione.

 

Come funziona Sora di OpenAI

Non è ancora chiaro il funzionamento preciso di Sora, ma il sito lanciato da OpenAI fa pensare che tutto avverrà sul browser come succede per ChatGPT e facendo il login sulla piattaforma tramite un account. Una volta entrati nel portale, si potranno generare gratuitamente un determinato numero di video, con la possibilità di superare la soglia minima sottoscrivendo un abbonamento a pagamento. Come il modello comprende il linguaggio per generare video realistici e personalizzati, è indicato da OpenAI in alcuni esempi.

Peebles e Brooks hanno spiegato che Sora sta producendo automaticamente alcune operazioni, come cambiare inquadratura quando necessario e imparare la geometria 3D e la coerenza. Queste capacità sono emerse naturalmente dalla visione di una enorme mole di dati. Per fare un esempio, il video seguente è il frutto di questo prompt:

Una donna elegante cammina in una strada di Tokyo piena di calde luci al neon e di insegne luminose. Indossa una giacca di pelle nera, un abito lungo rosso, stivali neri e una borsa nera. Ha gli occhiali da sole e un rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Attorno a lei camminano molte altre persone.

 

Il grado di realismo è davvero elevato. Non solo. L’indicazione data all’algoritmo può cambiare il formato: la semplice preferenza per la pellicola in 35mm e 70mm oppure per la fotocamera digitale o il telefono cellulare, produce un video di quel tipo per rendere personale il racconto. Ma Sora non lavora soltanto di fantasia: l’utente che fornisce come prompt all’applicazione “filmati storici della California durante la corsa all’oro”, si ritroverà con un’accurata ricostruzione d’epoca della cosiddetta gold rush, con la macchina da presa virtuale che plana sul paesaggio come se fosse attaccata ad un drone.

 

I dettagli del soggetto e dello sfondo sono accurati e possono dialogare con il mondo fisico. Tra gli esempi forniti da OpenAI ci sono video ambientati lungo la Costiera Amalfitana e nella foresta del Borneo, su fondali marini e in una giungla intricata. Non mancano visite guidate di musei e gallerie d’arte così come animazioni in 3D e in stop motion. Naturalmente l’attuale modello è in fase di sviluppo, può non comprendere rapporti specifici di causa ed effetto e confondere i dettagli spaziali di un prompt.

La sicurezza sarà un aspetto centrale di Sora prima del lancio effettivo. Allo scopo di scongiurare deepfake e falsificazioni, OpenAI sta lavorando con il consorzio C2PA per aggiungere delle etichette ai video: una serie di metadati utili a sottolineare l’uso dell’IA e a distinguere un file generato dall’algoritmo da uno realizzato da creatività umana. Un classificatore di rilevamento esaminerà i singoli fotogrammi di ogni video per garantire l’adesione alla policy e alle norme di utilizzo prima della pubblicazione. Saranno in particolare sotto osservazione i contenuti violenti ed espliciti, di odio e che violano la proprietà intellettuale, che riproducono senza consenso le fattezze di persone reali e lo stile di artisti famosi.

La ricerca di Sora si basa sui modelli DALL-E (l’algoritmo che genera immagini da una descrizione testuale) e GPT, l’LLM di testo per comprendere e restituire il linguaggio naturale. “Nonostante ricerche e test approfonditi – specifica la società – non è possibile prevedere tutti i modi positivi in cui le persone utilizzeranno la nostra tecnologia, né come ne abuseranno. Ecco perché crediamo che imparare dall’uso reale sia una componente fondamentale per creare e distribuire nel tempo sistemi di intelligenza artificiale sempre più sicuri”. La data di rilascio non è ancora definita: se OpenAI riuscirà a risolvere in tempi utili tutte le implicazioni di sicurezza, Sora potrebbe debuttare entro la fine del 2024.

AUTORE

Alessandro Zoppo

Alessandro Zoppo

Ascolta musica e guarda cinema da quando aveva 6 anni. Orgogliosamente sannita ma romano d'adozione, Alessandro scrive per siti web e riviste occupandosi di cultura, economia, finanza, politica e sport. Impegnato anche in festival e rassegne di cinema, Alessandro è tra gli autori di Borsa&Finanza da aprile 2022 dove si occupa prevalentemente di temi legati alla finanza personale, al Fintech e alla tecnologia.

ARTICOLI CORRELATI

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *