giovedì, Dicembre 26, 2024

Il chatbot ChatGPT di OpenAI ora supporta voce e immagini

La maggior parte delle modifiche di OpenAI a ChatGPT riguardano ciò che può fare il bot basato sull’Intelligenza Artificiale Fare: domande a cui può rispondere, informazioni a cui può accedere, modelli sottostanti migliorati. Questa volta, però, sta modificando il modo in cui usi ChatGPT stesso. L’azienda sta lanciando una nuova versione del servizio che consente di attivare il bot AI non solo digitando frasi in una casella di testo, ma parlando ad alta voce o semplicemente caricando un’immagine. Le nuove funzionalità verranno rese disponibili a coloro che pagheranno per ChatGPT nelle prossime due settimane, e tutti gli altri lo riceveranno “subito dopo” secondo OpenAI.

La parte della chat vocale è piuttosto familiare: tocchi un pulsante e pronunci la tua domanda, ChatGPT la converte in testo e la inserisce nel modello linguistico di grandi dimensioni, ottiene una risposta, la riconverte in parlato e pronuncia la risposta ad alta voce. Dovrebbe sembrare come parlare con Alexa o Google Assistant, solo che – spera OpenAI – le risposte saranno migliori grazie alla Tecnologia di base migliorata. A quanto pare, la maggior parte degli assistenti virtuali vengono ricostruiti per fare affidamento sui LLM; OpenAI è appena in vantaggio.

L’eccellente modello Whisper di OpenAI svolge gran parte del lavoro di sintesi vocale e l’azienda sta lanciando un nuovo modello di sintesi vocale che afferma possa generare “audio simile a quello umano solo dal testo e pochi secondi di discorso campione. ” Potrai scegliere la voce di ChatGPT tra cinque opzioni, ma OpenAI sembra ritenere che il modello abbia un potenziale molto maggiore di quello. OpenAI sta lavorando con Spotify per tradurre i podcast in altre lingue, ad esempio, mantenendo il suono della voce del podcaster. Esistono molti usi interessanti per le voci sintetiche e OpenAI potrebbe svolgere un ruolo importante in questo settore.

Ma il fatto che sia possibile creare una voce sintetica capace con solo pochi secondi di audio apre anche le porte a tutti i tipi di casi d’uso problematici. “Queste funzionalità presentano anche nuovi rischi, come la possibilità che attori malintenzionati possano impersonare personaggi pubblici o commettere frodi”, afferma la società in un post sul blog che annuncia le nuove funzionalità. Il modello non è disponibile per un ampio utilizzo proprio per questo motivo, afferma OpenAI: sarà molto più controllato e limitato a casi d’uso e partnership specifici.

La ricerca di Immagini, nel frattempo, è un po’ come Google Lens. Scatti una foto di ciò che ti interessa e ChatGPT proverà a capire cosa stai chiedendo e risponderà di conseguenza. Puoi anche utilizzare lo strumento di disegno dell’App per rendere più chiara la tua query oppure parlare o digitare domande da abbinare all’immagine. È qui che la natura avanti e indietro di ChatGPT è utile: invece di fare una ricerca, ottenere la risposta sbagliata e poi fare un’altra ricerca, puoi sollecitare il bot e perfezionare la risposta mentre procedi. (Questo è molto simile a ciò che Google sta facendo anche con la ricerca multimodale.)

Ovviamente, anche la ricerca di immagini ha i suoi potenziali problemi. Uno è ciò che potrebbe accadere quando chiedi a un chatbot di parlare di una persona: OpenAI afferma di aver deliberatamente limitato la “capacità di ChatGPT di analizzare e fare dichiarazioni dirette sulle persone” sia per motivi di precisione che di privacy. Ciò significa una delle visioni più fantascientifiche dell’IA: la capacità di guardare qualcuno e dire “chi è quello?” – non arriverà presto. Il che è probabilmente una buona cosa.

Quasi un anno dopo il lancio iniziale di ChatGPT, OpenAI sembra stia ancora cercando di capire come dare al suo bot più funzionalità e capacità senza creare nuove serie di problemi e svantaggi. Con queste versioni, l’azienda ha tentato di seguire quella linea limitando deliberatamente ciò che possono fare i suoi nuovi modelli. Ma questo approccio non funzionerà per sempre. Man mano che sempre più persone utilizzano il controllo vocale e la ricerca di immagini, e man mano che ChatGPT si avvicina sempre più a diventare un assistente virtuale veramente multimodale e utile, diventerà sempre più difficile mantenere i guardrail.

ARTICOLI COLLEGATI:

ULTIMI ARTICOLI: