JIM KELLER LANCIA LA SFIDA ALLE GPU CON I SUOI ACCELERATORI IA BASATI SU RISC-V
La velocissima espansione dei modelli di IA generativa sta dando vita a un nuovo tipo di Hardware: la scheda PCIe separata per effettuare calcoli di inferenza. Tenstorrent è l’azienda fondata da Jim Keller – una delle massime autorità nel mondo delle microarchitetture e papà dell’architettura ZEN di AMD e del chip di Tesla per la Guida Autonoma, e il suo obiettivo era quello di realizzare chip IA in grado di competere con quelli di NVIDIA. A quattro anni dalla creazione della Startup arrivano sul mercato i primi prodotti: due schede “networked” della serie Wormhole, per calcoli di machine learning e due schede DevKit PCIe Gen 4 della serie Greyskull, la e75 e la e150, per completare specificamente calcoli di inferenza. Interessante come queste schede siano basate su architettura RISC-V.
INFERENZA E CALCOLI DI MACHINE LEARNING
L’inferenza è la fase in cui un modello di deep learning addestrato viene utilizzato per fare previsioni o prendere decisioni sui nuovi dati di input. È in sostanza la “fase di utilizzo” del modello. Greyskull e75 è la scheda entry-level (599 dollari), mentre Greyskull e150 (799 dollari) è la più potente. Sono schede di sola inferenza provviste di Software TT-Buda, per l’esecuzione immediata dei modelli, e TT-Metalium, utilizzabile dagli utenti per la personalizzazione dei propri modelli.
LE POTENTI CARATTERISTICHE DELLE GREYSKULL
Le schede Greyskull e75 ed e150 sono di fatto la risposta RISC-V su schede separate alle GPU, specie di Nvidia. Le Greyskull sono progettate per essere più facili da programmare e scalare, e sono in grado di gestire al meglio la sparsità runtime e il calcolo condizionale. La sparsità runtime è una tecnica di deep learning in cui, durante l’esecuzione (run-time), vengono disattivati o “spenti” alcuni neuroni o connessioni non necessari per l’elaborazione di un particolare input. In questo modo si riducono i requisiti computazionali.
VARIE APPLICAZIONI SUPPORTATE
Le Grayskull supportano un’ampia gamma di modelli, tra cui il modello BERT per l’elaborazione del linguaggio naturale, Whisper per il riconoscimento e la traduzione vocale, ResNet per il riconoscimento delle Immagini, YOLOv5 per il rilevamento di oggetti in tempo reale e U-Net per la segmentazione delle immagini, cioè quel processo che partiziona le immagini al fine di individuare regioni di interesse o per scopi di etichettatura.
In conclusione, l’impatto dei nuovi acceleratori IA di Tenstorrent potrebbe rivoluzionare il settore dei calcoli di inferenza, offrendo alternative alle GPU tradizionali e introducendo algoritmi e architetture basate su RISC-V che potrebbero cambiare il modo in cui vengono trattati i dati nell’ambito dell’Intelligenza Artificiale.