**INFINI-ATTENTION: LA NUOVA FRONTIERA DELL’Intelligenza Artificiale**
Nel 2017, un gruppo di ingegneri Software Google ha presentato la storica ricerca dal titolo “Attention Is All You Need“. Sebbene, all’epoca, il documento non avesse ottenuto l’attenzione che meritava, proprio da parte dei vertici dell’azienda di Mountain View, quello studio avrebbe poi letteralmente rivoluzionato il campo del deep learning, in particolare nell’ambito del Natural Language Processing (NLP).
L’approccio descritto dai tecnici Google, infatti, introduceva un’innovativa architettura di rete neurale chiamata Transformer: basata sul concetto di “attenzione“, eliminava la necessità di utilizzare strati ricorrenti o convoluzionali, ampiamente utilizzati in precedenza.
**INFINI-ATTENTION: COSA CAMBIA CON LA POSSIBILITÀ PER I MODELLI GENERATIVI DI LAVORARE SU TESTI INFINITI**
Con un nuovo studio, appena pubblicato, Google torna a far parlare di sé e introduce, ancora una volta, un’idea innovativa. La società fondata da Larry Page e Sergey Brin ha svelato pubblicamente la nuova tecnica Infini-attention, che permette ai Large Language Models (LLM) di lavorare con testi di lunghezza infinita.
L’approccio appena proposta estende la cosiddetta “finestra di contesto” (context window) dei modelli linguistici, consentendo loro di elaborare un numero maggiore di token contemporaneamente, senza aumentare i requisiti di memoria e calcolo.
La finestra di contesto rappresenta il numero di token su cui un modello può lavorare in un dato momento. Si pensa in esame il chatbot ChatGPT e il sottostante modello GPT di OpenAI: se le informazioni introdotte vanno oltre la finestra di contesto, le prestazioni del modello calano bruscamente e i token presenti nella parte iniziale della chat sono automaticamente scartati.
Aumentare la lunghezza del contesto è perciò diventato uno obiettivo primario per migliorare le prestazioni e la qualità dei risultati dei modelli generativi, ottenendo così un vantaggio competitivo.
**COME FA INFINI-ATTENTION A MIGLIORARE LE PRESTAZIONI DEL MODELLO SENZA EFFETTI COLLATERALI**
L’uso dei Transformer presenta una “complessità quadratica” in termini di memoria e tempo di calcolo. Ciò significa che la quantità di memoria richiesta e il tempo necessario per elaborare i dati aumentano esponenzialmente con la dimensione dei dati di input.
Ad esempio, se si estende la dimensione dell’input da 1.000 a 2.000 token, la memoria e il tempo di calcolo necessari per elaborare l’input non raddoppiano, ma addirittura quadruplicano.
Questa relazione quadratica scaturisce dal meccanismo di auto-attenzione utilizzato nei Transformer. Esso confronta ogni elemento nella sequenza di input con ogni altro elemento. In altre parole, ogni token nell’input deve essere messo in relazione con tutti gli altri token, il che comporta un aumento significativo della complessità computazionale all’aumentare della dimensione del prompt fornito in ingresso dall’utente.
Infini-attention mantiene il meccanismo di attenzione classico e aggiunge un modulo chiamato “compressive memory” per gestire gli input estesi. Una volta che l’input supera una certa lunghezza di contesto, il modello salva i vecchi stati di attenzione…
—
Questo articolo descrive il significato e l’impatto dell’Infini-attention nell’ambito dell’intelligenza artificiale, spiegando come questa nuova tecnica permetta ai modelli generativi di lavorare con testi infiniti. Il testo fornisce una panoramica dettagliata del funzionamento di Infini-attention e dei suoi benefici nel migliorare le prestazioni dei modelli senza effetti collaterali.