GPT-4o, cosa permette di fare il nuovo modello di OpenAI - Borsa&Finanza
Cerca
Close this search box.

GPT-4o, cosa permette di fare il nuovo modello di OpenAI

Un utente interagisce con GPT-4o

OpenAI, l’azienda californiana di intelligenza artificiale dietro ChatGPT, ha presentato ufficialmente GPT-4o (la o dopo il 4 sta per omni), il suo nuovo modello di IA generativa che verrà presto lanciato gratuitamente, prima sui prodotti rivolti agli sviluppatori e poi a tutti i consumatori. Gli abbonati a ChatGPT Plus avranno una corsia privilegiata e limiti di capacità fino a cinque volte superiori rispetto ai registrati non paganti. Ma in cosa si distingue GPT-4o dai precedenti modelli e perché è così sorprendente da indurre tanti analisti a paragonarlo a OS 1, il sistema operativo con la voce di Scarlett Johansson nel film Lei di Spike Jonze?

 

GPT-4o, OpenAI presenta l’AI del futuro

La nuova intelligenza artificiale dell’ormai ex start-up è stata mostrata per la prima volta nel corso di una diretta streaming sui suoi canali, giocando con 24 ore d’anticipo su Google I/O 2024, l’evento annuale in cui la Big Tech di Mountain View presenta le sue ultime novità in fatto di AI. Con GPT-4o, OpenAI diventa un fornitore di servizi tecnologici con le API aperte (i prezzi sono dimezzati per gli sviluppatori) che potranno essere sfruttate da altre software house. “Vogliamo mettere gratuitamente (o ad un ottimo prezzo) strumenti di intelligenza artificiale molto efficaci nelle mani di miliardi di persone in tutto il mondo”: è questo l’obiettivo sottolineato dal CEO Sam Altman in un post sul suo blog.

GPT-4o è destinato a diventare il modello di punta di OpenAI, esportabile all’interno di applicazioni esterne che potranno sfruttare i suoi algoritmi. L’approccio omni è appunto a 360 gradi perché le nuove funzionalità sviluppate sono molteplici. Altman definisce “visceralmente diversa” l’interfaccia linguistica che caratterizza questo chatbot “nativamente multi-modale” perché “veloce, intelligente, divertente, naturale e utile”. In attesa del suo debutto completo (al momento la modalità vocale è ancora limitata) e con l’arrivo dell’inedita app desktop di ChatGPT per macOS con cui si può condividere con il chatbot parte dello schermo per analizzare i dati mostrati o incollare testo, vediamo di cosa è capace GPT-4o, almeno stando alle promesse fatte in sede di presentazione, l’ormai virale Springs Update.

 

Cosa permette di fare GPT-4o

La CTO Mira Murati e il suo team hanno potenziato le capacità vocali, visive e di testo del modello: GPT-4o accetta input e genera output in audio, immagini e testo ed è più veloce ed emotivo delle precedenti IA. La caratteristica principale è l’interattività in tempo reale: omni permette agli utenti di entrare in una relazione intima con GPT durante una conversazione. Quest’IA olistica capisce da attitudine, velocità e tono della voce lo stato d’animo dell’interlocutore e aggiunge anche effetti sonori adeguati al contesto.

Sarà come avere un assistente umano capace di comprendere le emozioni, cogliere le sfumature e rispondere ai prompt (audio, testo, immagini) con un output sempre meno artificiale e sempre più sensibile ed espressivo. Non solo: con le sue capacità di memoria, GPT-4o può essere interrotto nel corso del suo flusso ed è in grado di riprendere il discorso come in una vera discussione tra persone. Con queste novità, la naturalezza delle interazioni raggiunge un nuovo livello, come dimostrato nei video pubblicati durante lo show di lancio.

La velocità dichiarata di risposta ad uno stimolo è di 232 millisecondi, con una media di 320 millisecondi paragonabile in tutto e per tutto a quella umana. Vengono quindi eliminati quei 5-6 secondi di latenza del vecchio ChatGPT, che aveva una modalità voce composta da una pipeline di tre modelli separati. Nel parlato, il modello ha pure la competenza di cavarsela con lingue differenti dall’inglese (incluso l’italiano) e tradurre live: ad oggi si contano 50 lingue parlate per coprire il 97% della popolazione globale.

L’abilità visiva è migliorata su tutti i fronti: il modello riesce a vedere foto e video, screenshot, schermate, grafici e documenti (anche estrapolati in allegati come PDF, doc, txt, ppt, xlx e csv) e a rispondere subito alle domande che gli vengono poste in merito. Una novità di rilievo è la possibilità di rielaborare e sintetizzare video proposti dell’utente con una pratica operazione di editing. Con tutte queste funzioni a costi ridotti del 50% e maggiore accessibilità, OpenAI amplia le possibilità di utilizzo e i casi d’uso del suo flagship model. Per chi vuole cominciare a sperimentare, le funzionalità di testo e immagini sono in distribuzione e presto saranno disponibili su ChatGPT nella versione alfa per gli utenti Plus e poi per chi usa ChatGPT gratuitamente.

AUTORE

Picture of Alessandro Zoppo

Alessandro Zoppo

Ascolta musica e guarda cinema da quando aveva 6 anni. Orgogliosamente sannita ma romano d'adozione, Alessandro scrive per siti web e riviste occupandosi di cultura, economia, finanza, politica e sport. Impegnato anche in festival e rassegne di cinema, Alessandro è tra gli autori di Borsa&Finanza da aprile 2022 dove si occupa prevalentemente di temi legati alla finanza personale, al Fintech e alla tecnologia.

ARTICOLI CORRELATI

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *