sabato, Giugno 29, 2024

Clonare la voce del padre defunto: guida pratica

**CLONARE LA VOCE PER MANTENERE UN LEGAME EMOTIVO**

All’inizio di aprile 2024 chi scrive quest’articolo è stato investito da un terribile lutto. La perdita di un genitore è uno dei passaggi della vita più sconvolgenti, un evento difficile – se non impossibile – da accettare e interiorizzare. Gli eventi pesano come un macigno e il pensiero corre spesso a chi non c’è più. Per molte persone, **ascoltare la voce** di una persona cara defunta può offrire conforto e un modo per mantenere un legame emotivo. Così, sono nate tante App che permettono di **clonare la voce** di chi non c’è più, partendo da un Video o da una registrazione vocale della quale si è in possesso.

Chi scrive non è uno psicologo né un esperto di temi etici, sociologici e culturali. È però un tecnico, che sta vivendo un momento difficile. Così, nel desiderio di risentire ancora una volta la voce del babbo, ha voluto imboccare la strada più breve per raggiungere l’obiettivo.

**COME L’Intelligenza Artificiale AIUTA A CLONARE LA VOCE DI CHI NON C’È PIÙ**

Sulla piazza esistono diverse app che possono aiutare le persone a sentirsi più vicine ai loro cari scomparsi, alleviando il dolore del lutto. La clonazione della voce è uno strumento potente che, però, non dovrebbe essere abusato per fini commerciali.

Così, il sottoscritto ha pensato di utilizzare lo strumento **Instant Voice Cloning** di Eleven Labs per perseguire l’obiettivo e per finalità ovviamente del tutto personali.

**Eleven Labs** è un’azienda che si occupa di tecnologie di sintesi vocale basate sull’intelligenza artificiale. Il loro prodotto principale consente di **generare voci artificiali** realistiche e di clonare voci umane.

Il sistema messo a punto da Eleven Labs permette di **replicare** una voce umana utilizzando un **campione audio** della lunghezza minima di 60 secondi. Le tecniche avanzate di **deep learning** sviluppate da Eleven Labs prendono le mosse da *dataset* di registrazioni vocali e dalla rappresentazione vettoriale delle caratteristiche della voce, come timbro, intonazione e ritmo.

**PREPARAZIONE DEL CAMPIONE AUDIO**

Ben conoscendo le potenzialità di Eleven Labs, come primo passo si è quindi provveduto ad aprire con Audacity in versione portabile un video MP4 contenente (anche) la voce del caro estinto. Poiché di default Audacity non supporta il **formato MP4**, è bastato installare FFmpeg for Audacity.

Aprendo il video MP4, con il noto Software di elaborazione audio, si sono rimossi con cura i rumori di fondo e il parlato riconducibile ad altri interlocutori.

Alla fine del lavoro, è bastato fare clic su **File, Export, Export as MP3** per ottenere un **file audio** in formato **MP3**, con il campione vocale d’interesse.

**COME CREARE UN MODELLO VOCALE SU ELEVEN LABS**

Possedendo un abbonamento *Starter* di Eleven Labs, si è fatto clic su **Voices, Add generative or cloned voices, Instant Voice Cloning** nell’interfaccia Web.

L’applicazione Web di Eleven Labs chiede a questo punto di assegnare un nome al **modello vocale** in procinto di creazione quindi di caricare lo spezzone audio di almeno un minuto. Si è quindi provveduto all’upload del file MP3 esportato in precedenza tramite l’interfaccia di Audacity.

Per procedere e avere la possibilità di cliccare sul pulsante **Add voice** è indispensabile dichiarare di impegnarsi a rispettare scrupolosamente i **termini di utilizzo** del servizio nonché di utilizzare il modello vocale solo ed esclusivamente per scopi leciti e ammessi dalle normative vigenti.

**IL RISULTATO PROPOSTO DA ELEVEN LABS LASCIA DI STUCCO**

Basta fare riferimento alla scheda **Text-to-Speech** (TTS), scrivere o incollare il testo nell’apposito riquadro quindi cliccare sul pulsante **Generate speech**. A questo proposito, va detto che ogni operazione di sintesi vocale con la generazione di **audio riproducibile**, va a consumare un certo quantitativo di *token*, disponibili ed elaborabili su base mensile. Eleven Labs indica, come “valore spannometrico”, la possibilità di elaborare intorno ai 30.000 caratteri al mese, equivalenti a **30 minuti di audio** (piano *Starter*).

La **qualità del risultato** offerto dal modello vocale creato utilizzando Eleven Labs dipende fortemente dalla “bontà” del campione audio fornito in input. Ad ogni modo, pur non disponendo di registrazioni sonore piuttosto lunghe e a dispetto della presenza di qualche imperfezione, il risultato di solito impressiona positivamente.

**IL PASSO SUCCESSIVO: UTILIZZO DELLE API DI ELEVEN LABS**

Tutti i file audio generati ricorrendo al modello vocale di Eleven Labs possono essere **scaricati** in formato WAV o MP3. Il passaggio successivo, però, può essere l’utilizzo delle **API** (*Application Programming Interface*) fornite dalla piattaforma e il collegamento con un *Large Language Model* (LLM).

Le API di Eleven Labs consentono di inviare richieste e ricevere risposte in **formato JSON**. Si può ad esempio chiedere al modello generativo di Eleven Labs di generare un file audio riproducibile inviando la risposta ottenuta da un LLM, come conseguenza di uno specifico *prompt*.

Allo scopo si può utilizzare Voiceflow che permette di creare un assistente vocale interfacciandosi con le API di Eleven Labs.

**CONCLUSIONE**

In conclusione, è bene sottolineare più volte che ciò che aiuta lo scrivente può non essere di ausilio per altri. Bisogna essere consapevoli che l’uso di una voce clonata può interferire con il processo di elaborazione del lutto o, addirittura, creare confusione emotiva. Quanto illustrato in questo articolo non vuole, non può e non deve costituire esortazione a comportarsi in maniera analoga.

ARTICOLI COLLEGATI:

ULTIMI ARTICOLI: