GEMINI 1.5 – NUOVE FRONTIERE DELL’Intelligenza Artificiale
Negli ultimi mesi riesce difficile tenere il passo dei giganti del tech che producono nuovi Software di intelligenza artificiale o mettono sul mercato sempre nuovi e più competitivi modelli.
Google Gemini era poi stato presentato lo scorso dicembre nelle sue tre versioni Nano, Pro e Ultra. E all’inizio di febbraio 2024, come era successo per il passaggio (e rebranding) da Twitter a X, ci siamo dovuti dimenticare di Bard: il nome dell’intelligenza artificiale dell’azienda di Mountain View sarebbe stato Gemini.
E adesso Google ha già annunciato la nuova versione del software, Gemini 1.5. Cosa sappiamo?
Gemini 1.5
L’annuncio di Gemini 1.5 è apparso in un lungo post pubblicato sul sito di Google nella giornata di giovedì 15 febbraio.
La nota contiene interventi di due figure apicali: il Ceo Sundar Pichai e il Ceo di Google DeepMind Demis Hassabis.
Leggiamo che i miglioramenti rispetto alla precedente versione appaiono notevoli. Paragonato a 1.0 Pro (versione intermedia, tra Nano e Ultra), Gemini 1.5 Pro assicura un miglioramento dell’87% nell’elaborazione di test, codice, Immagini, audio e Video. Le prestazioni si avvicinano a quelle di Gemini 1.0 Ultra.
Gemini 1.5 nel dettaglio
Gemini 1.5 si basa sulla nuova architettura Mixture-of-Experts (MoE), che permette di migliorare l’efficienza del software in fase di addestramento.
Non solo: MoE consente l’attivazione selettiva dei modelli. In concreto: quando viene inviato un determinato input al modello, l’elaborazione ne fa attivare solo una parte, riducendo i consumi e soprattutto i tempi di attesa.
La finestra di contesto in cui Opera Gemini 1.5 Pro è di 128.000 token, quattro volte tanto quella di Gemini 1.0, che era di 32.000.
Sviluppatori e clienti cloud (che, come vedremo, possono già accedere a Gemini 1.5) hanno a disposizione una versione con una finestra di contesto di un milione di token. E Google ha fatto sapere di aver testato un context window addirittura da 10 milioni di token.
Ricordiamo che, semplificando, il token è il “peso” di una parola, di un segno interpuntivo o di uno spazio tra due parole. È, potremmo dire, l’unità di misura linguistica dei Large Language Model.
Più è ampia la finestra di contesto, maggiore è la capacità di elaborazione del software in risposta di ogni singolo comando dell’utente.
Le prestazioni
Facciamo qualche esempio. Gemini 1.5 Pro, tramite una sola richiesta dell’utente, è in grado di elaborare un’ora di video, 11 ore di audio, oltre 30.000 linee di codice e più di 700.000 parole.
Con un unico prompt, Gemini 1.5 può analizzare e riassumere un documento di 402 pagine della missione Apollo 11, o descrivere il film Sherlock Jr. di Buster Keaton (noto in Italia come La palla n° 13), della durata di 44 minuti.
Quando sarà disponibile
L’anteprima privata di Gemini 1.5 è accessibile agli sviluppatori tramite AI Studio e ai clienti cloud tramite Vertex AI.
In futuro (le date non sono nemmeno trapelate) verranno introdotti vari tipi di abbonamento per i clienti privati. Non si conoscono i tempi in cui saranno rese pubbliche le versioni dei software con finestre di contesto da diversi milioni di token.
I commenti
Il Ceo di Google Sundar Pichai ha commentato l’annuncio di Gemini 1.5: “Gemini 1.5. Mostra notevoli miglioramenti in una serie di dimensioni e 1.5 Pro raggiunge una qualità paragonabile a 1.0 Ultra, utilizzando meno risorse di elaborazione.”
E ancora: “Finestre di contesto più lunghe ci mostrano la promessa di ciò che è possibile. Consentiranno funzionalità completamente nuove e aiuteranno gli sviluppatori a creare modelli e applicazioni molto più utili. Siamo entusiasti di offrire un’anteprima limitata di questa funzionalità sperimentale a sviluppatori e clienti aziendali.”
Demis Hassabis. Ceo di Google DeepMind, ha aggiunto: “Il primo modello Gemini 1.5 che rilasceremo per i primi test è Gemini 1.5 Pro. È un modello multimodale di medie dimensioni, ottimizzato per adattarsi a un’ampia gamma di attività e funziona a un livello simile a 1.0 Ultra, il nostro modello più grande fino a oggi. Introduce inoltre una caratteristica sperimentale rivoluzionaria nella comprensione del contesto lungo. Mentre implementiamo l’intera finestra di contesto di 1 milione di token, stiamo lavorando attivamente alle ottimizzazioni per migliorare la latenza, ridurre i requisiti computazionali e migliorare l’esperienza dell’utente.”