venerdì, Settembre 6, 2024

GPT-4o: il processo di codifica e riconoscimento delle immagini

**GPT-4o: UN MODELLO EVOLUTO DI VISIONE ARTIFICIALE**

Le applicazioni di **visione artificiale** stanno raggiungendo livelli sempre più avanzati grazie ai modelli basati sull’Intelligenza Artificiale generativa. Tra questi, spicca GPT-4o (dove la “o” indica “omni”), l’ultimo modello di linguaggio multimodale sviluppato da OpenAI e presentato il 13 maggio 2024. Questa nuova incarnazione rappresenta un passo significativo rispetto alle versioni precedenti, in grado di gestire input e output di testo, audio e Immagini in tempo reale.

**IL PROCESSO DI CODIFICA E TOKENIZZAZIONE DELLE IMMAGINI**

Una delle principali novità introdotte da GPT-4o riguarda la capacità di gestire non solo il linguaggio naturale, ma anche le immagini. Lo sviluppatore Oran Looney ha condotto una serie di test per comprendere il funzionamento di GPT-4o nel trattare le immagini ad alta risoluzione. Quando l’intelligenza artificiale riceve un’immagine in input, la suddivide in riquadri di 512×512 pixel, ciascuno dei quali consuma 170 token. Looney ipotizza che ogni riquadro venga convertito in un vettore contenente 170 caratteristiche, permettendo al modello di lavorare in uno spazio multidimensionale più efficiente.

**LA CONVERSIONE IN UNO SPAZIO VETTORIALE**

GPT-4o si basa su una rete neurale convoluzionale (CNN) per codificare le immagini, trasformandole in griglie di vettori embedding. Questo processo di tokenizzazione, applicato sia al testo che alle immagini, è essenziale per il corretto funzionamento del modello. L’utilizzo di 170 token per riquadro e la capacità di lavorare con griglie pixel di diverse dimensioni consentono a GPT-4o di raccogliere informazioni dettagliate sia a livello globale che locale dalle immagini.

**METTETE ALLA PROVA GPT-4o CON IMMAGINI COMPLESSE**

GPT-4o può essere utilizzato tramite ChatGPT, che offre agli utenti la possibilità di interagire con il modello per gestire domande e richieste. Il riconoscimento delle immagini da parte di GPT-4o è straordinario: l’intelligenza artificiale è in grado non solo di identificare oggetti nelle immagini, ma anche di rilevare dettagli come numeri di targa grazie a un motore OCR integrato. L’analisi condotta da Looney apre la strada a ulteriori ricerche sull’elaborazione delle immagini da parte di modelli avanzati come GPT-4o, evidenziando le potenzialità e la complessità di queste tecnologie.

In conclusione, l’evoluzione di modelli come GPT-4o sta rivoluzionando il campo della visione artificiale e aprendo nuove prospettive nell’applicazione dell’intelligenza artificiale per analizzare e comprendere il mondo visivo che ci circonda.

ARTICOLI COLLEGATI:

ULTIMI ARTICOLI: