È l’inizio di una nuova era dell’Intelligenza Artificiale per Google, afferma il CEO Sundar Pichai: l’era dei Gemini. Gemini è l’ultimo modello linguistico di grandi dimensioni di Google, che Pichai ha anticipato per la prima volta alla conferenza degli sviluppatori I/O di giugno e che ora sta lanciando al pubblico. Per sentirlo descrivere da Pichai e dal CEO di Google DeepMind, Demis Hassabis, si tratta di un enorme passo avanti in un modello di intelligenza artificiale che alla fine influenzerà praticamente tutti i prodotti di Google. “Uno degli aspetti più importanti di questo momento”, afferma Pichai, “è che puoi lavorare su una Tecnologia di base e migliorarla e ciò si trasmette immediatamente ai nostri prodotti”.
Gemini è più di un singolo modello di intelligenza artificiale. Esiste una versione più leggera chiamata Gemini Nano pensata per essere eseguita in modo nativo e offline su dispositivi Android. Esiste una versione più robusta chiamata Gemini Pro che presto alimenterà molti servizi di intelligenza artificiale di Google e costituirà la spina dorsale di Bard a partire da oggi. E c’è un modello ancora più capace chiamato Gemini Ultra che è il LLM più potente che Google abbia mai creato e sembra essere progettato principalmente per data center e applicazioni aziendali.
Google sta lanciando il modello in alcuni modi in questo momento: Bard è ora alimentato da Gemini Pro e gli utenti di Pixel 8 Pro riceveranno alcune nuove funzionalità grazie a Gemini Nano. (Gemini Ultra arriverà il prossimo anno.) Sviluppatori e clienti aziendali potranno accedere a Gemini Pro tramite Google Generative AI Studio o Vertex AI in Google cloud a partire dal 13 dicembre. Gemini è disponibile solo in inglese per ora, ma altre lingue arriveranno presto. Ma Pichai afferma che il modello alla fine verrà integrato nel motore di ricerca di Google, nei suoi prodotti pubblicitari, nel Browser Chrome e altro ancora, in tutto il mondo. È il futuro di Google, ed è qui non un momento troppo presto.
Inizialmente, Gemini è disponibile in tre versioni, pensate per tre scopi diversi.
OpenAI ha lanciato ChatGPT un anno e una settimana fa e l’azienda e il prodotto sono diventati immediatamente le cose più importanti nel campo dell’intelligenza artificiale. Ora, Google, l’azienda che ha creato gran parte della tecnologia fondamentale dietro l’attuale boom dell’intelligenza artificiale, che si è definita un’organizzazione “AI-first” per quasi un decennio, e che è stata colta chiaramente e in modo imbarazzante alla sprovvista da quanto fosse buono ChatGPT e dalla velocità con cui la tecnologia OpenAI ha preso il sopravvento sul settore – è finalmente pronto per reagire.
Quindi, arriviamo alla domanda importante, ok? GPT-4 di OpenAI contro Gemini di Google: pronti, via. Questo è stato chiaramente nella mente di Google da un po’. “Abbiamo effettuato un’analisi molto approfondita dei sistemi affiancati e il benchmarking”, afferma Hassabis. Google ha eseguito 32 benchmark consolidati confrontando i due modelli, da test generali più ampi come il benchmark Multi-task Language Understanding a uno che confronta la capacità di due modelli di generare codice Python. “Penso che siamo sostanzialmente in vantaggio su 30 su 32” di questi parametri di riferimento, dice Hassabis, con un sorriso sul volto. “Alcuni di loro sono molto ristretti. Alcuni di loro sono più grandi.
Google afferma che Gemini batte GPT-4 in 30 benchmark su 32.
In questi benchmark (che in realtà sono per lo più molto vicini) il vantaggio più evidente di Gemini deriva dalla sua capacità di comprendere e interagire con Video e audio. Questo è in gran parte previsto: la multimodalità è stata parte del piano Gemini fin dall’inizio. Google non ha addestrato modelli separati per Immagini e voce, nel modo in cui OpenAI ha creato DALL-E e Whisper; ha costruito fin dall’inizio un modello multisensoriale. “Siamo sempre stati interessati a sistemi molto, molto generali”, afferma Hassabis. È particolarmente interessato a come mescolare tutte queste modalità: raccogliere quanti più dati possibili da un numero qualsiasi di input e sensi e quindi fornire risposte con la stessa varietà.
Al momento, i modelli più basilari di Gemini prevedono l’immissione e l’invio di testo, ma modelli più potenti come Gemini Ultra possono funzionare con immagini, video e audio. E “diventerà ancora più generale di così”, dice Hassabis. “Ci sono ancora cose come l’azione e il tatto, più simili a cose di tipo robotico.” Col passare del tempo, dice, i Gemelli acquisiranno più sensi, diventeranno più consapevoli e diventeranno più accurati e radicati nel processo. “Questi modelli semplicemente capiscono meglio il mondo che li circonda.” Questi modelli, ovviamente, continuano ad avere allucinazioni e presentano ancora pregiudizi e altri problemi. Ma più cose sanno, dice Hassabis, meglio miglioreranno.
“Questi modelli semplicemente capiscono meglio il mondo che li circonda.”
I benchmark sono solo parametri di riferimento, tuttavia, e, in definitiva, la vera prova delle capacità di Gemini verrà dagli utenti di tutti i giorni che vorranno utilizzarlo per scambiare idee, cercare informazioni, scrivere codice e molto altro ancora. Google sembra vedere la Programmazione in particolare come un’App killer per Gemini; utilizza un nuovo sistema di generazione del codice chiamato AlphaCode 2 che, a quanto pare, funziona meglio dell’85% dei partecipanti alla competizione di codifica, rispetto al 50% dell’AlphaCode originale. Ma Pichai afferma che gli utenti noteranno un miglioramento praticamente in tutto ciò che tocca il modello.
Altrettanto importante per Google è che Gemini è apparentemente un modello molto più efficiente. È stato addestrato sulle Tensor Processing Unit di Google ed è più veloce ed economico da eseguire rispetto ai modelli precedenti di Google come PaLM. Oltre al nuovo modello, Google sta lanciando anche una nuova versione del suo sistema TPU, il TPU v5p, un sistema informatico progettato per l’utilizzo nei data center per l’addestramento e l’esecuzione di modelli su larga scala.
Modello di intelligenza artificiale di grande importanza; una specie di logo noioso.
Parlando con Pichai e Hassabis, è chiaro che vedono il lancio di Gemini sia come l’inizio di un progetto più ampio sia come un cambio di passo in sé. Gemini è il modello che Google stava aspettando, quello verso cui ha costruito per anni, forse anche quello che avrebbe dovuto essere pronto prima che OpenAI e ChatGPT conquistassero il mondo.
Google, che ha dichiarato un “codice rosso” dopo il lancio di ChatGPT e da allora è stato percepito come se stesse cercando di recuperare terreno, sembra che stia ancora cercando di mantenere saldo il suo mantra “audace e responsabile”. Sia Hassabis che Pichai affermano di non essere disposti a muoversi troppo in fretta solo per tenere il passo, soprattutto mentre ci avviciniamo al sogno finale dell’IA: intelligenza artificiale generale, il termine per un’intelligenza artificiale che si auto-migliora, più intelligente degli umani, e pronto a cambiare il mondo. “Mentre ci avviciniamo all’AGI, le cose saranno diverse”, afferma Hassabis. “È una specie di tecnologia attiva, quindi penso che dobbiamo affrontarla con cautela. Con cautela, ma ottimisticamente”.
Google afferma di aver lavorato duramente per garantire la Sicurezza e la responsabilità di Gemini, sia attraverso test interni che esterni e attraverso il team rosso. Pichai sottolinea che garantire la sicurezza e l’affidabilità dei dati è particolarmente importante per i prodotti enterprise-first, che è il settore in cui l’intelligenza artificiale più generativa guadagna i suoi soldi. Ma Hassabis riconosce che uno dei rischi legati al lancio di un sistema di intelligenza artificiale all’avanguardia è che presenterà problemi e vettori di attacco che nessuno avrebbe potuto prevedere. “Ecco perché devi rilasciare le cose”, dice, “per vedere e imparare”. Google sta procedendo con particolare lentezza con la versione Ultra; Hassabis lo paragona a una beta controllata, con una “zona di sperimentazione più sicura” per il modello più capace e sfrenato di Google. Fondamentalmente, se all’interno dei Gemelli c’è una personalità alternativa che rovina il matrimonio, Google sta cercando di trovarla prima di te.
Per anni, Pichai e altri dirigenti di Google si sono espressi in modo poetico sul potenziale dell’intelligenza artificiale. Lo stesso Pichai ha affermato più di una volta che l’intelligenza artificiale sarà più trasformativa per l’umanità rispetto al fuoco o all’elettricità. In questa prima generazione, il modello Gemini potrebbe non cambiare il mondo. Nella migliore delle ipotesi, potrebbe semplicemente aiutare Google a raggiungere OpenAI nella corsa per creare una grande intelligenza artificiale generativa. (Nello scenario peggiore, Bard rimane noioso e mediocre e ChatGPT continua a vincere.) Ma Pichai, Hassabis e tutti gli altri in Google sembrano pensare che questo sia l’inizio di qualcosa di veramente enorme. Il web ha reso Google un gigante della tecnologia; I Gemelli potrebbero essere ancora più grandi.