giovedì, Gennaio 9, 2025

Rete neurale addestrata per giocare da sola a Minecraft

In un post sul blog di oggi, OpenAI afferma di aver “addestrato una rete neurale per riprodurre Minecraft tramite Video PreTraining (VPT) su un enorme set di dati video senza etichetta di gioco umano di Minecraft, utilizzando solo una piccola quantità di dati di appaltatori etichettati”.

Secondo quanto riferito, il modello può imparare a creare utensili diamantati, “un compito che di solito richiede agli esseri umani esperti più di 20 minuti (24.000 azioni)”, osservano.

Dal post:

Al fine di utilizzare la ricchezza di dati video senza etichetta disponibili su Internet, introduciamo un nuovo, ma semplice, metodo di apprendimento per imitazione semi-supervisionato: Video PreTraining (VPT). Iniziamo raccogliendo un piccolo set di dati dagli appaltatori in cui registriamo non solo i loro video, ma anche le azioni che hanno intrapreso, che nel nostro caso sono pressioni di tasti e movimenti del mouse. Con questi dati formiamo un modello a dinamica inversa (IDM), che prevede l’azione intrapresa in ogni fase del video. È importante sottolineare che l’IDM può utilizzare le informazioni passate e future per indovinare l’azione in ogni passaggio. Questo compito è molto più semplice e quindi richiede molti meno dati rispetto al compito di clonazione comportamentale di prevedere azioni solo dati fotogrammi video passati, che richiede di dedurre ciò che la persona vuole fare e come realizzarlo.

Abbiamo scelto di convalidare il nostro metodo in Minecraft perché (1) è uno dei videogiochi più giocati al mondo e quindi ha una vasta gamma di dati video disponibili gratuitamente e (2) è a tempo indeterminato con un’ampia varietà di cose da do, simile alle applicazioni del mondo reale come l’utilizzo del computer. A differenza dei precedenti lavori in Minecraft che utilizzano spazi d’azione semplificati volti a facilitare l’esplorazione, la nostra IA utilizza l’interfaccia umana nativa molto più generalmente applicabile, sebbene anche molto più difficile: framerate di 20Hz con mouse e tastiera.

Formato su 70.000 ore di video online con etichetta IDM, il nostro modello di clonazione comportamentale (il “modello di fondazione oeVPT”) esegue in Minecraft compiti quasi impossibili da ottenere con l’apprendimento per rinforzo da zero. Impara ad abbattere gli alberi per raccogliere tronchi, trasformarli in tavole e poi trasformarle in un tavolo da lavoro; questa sequenza richiede a un essere umano esperto in Minecraft circa 50 secondi o 1.000 azioni di gioco consecutive. Inoltre, il modello esegue altre abilità complesse che gli esseri umani spesso fanno nel gioco, come nuotare, cacciare animali per il cibo e mangiare quel cibo. Ha anche imparato l’abilità del “salto del pilastro”, un comportamento comune in Minecraft di elevarsi saltando ripetutamente e posizionando un blocco sotto di sé.

Per ulteriori informazioni, OpenAI ha un documento (PDF) sul progetto.

ARTICOLI COLLEGATI:

ULTIMI ARTICOLI: