DeepMind, il laboratorio di ricerca sull’intelligenza artificiale di Google, ha affermato che sta lavorando allo sviluppo di una tecnologia basata sull’IA per creare colonne sonore per i video. DeepMind ha infatti affermato di ritenere questa nuova tecnologia un elemento essenziale per la realizzazione dei media generati con l’utilizzo dell’IA.

Che cos’è la tecnologia V2A di DeepMind

Il laboratorio di ricerca di Google ha compiuto recentemente degli enormi passi avanti nello sviluppo di questo innovativo utilizzo dell’IA. Nonostante abbia dichiarato che tutti i modelli di IA sviluppati per la creazione di video non sono ancora in grado di realizzare degli effetti sonori sincronizzati con i video generati, il laboratorio sta sviluppando un nuovo approccio per superare questo enorme ostacolo. DeepMind sta infatti lavorando all’implementazione della tecnologia V2A (abbreviazione di “Video-to-Audio”), che consente di abbinare la descrizione di una qualsiasi colonna sonora con ogni tipologia di video, così da creare dialoghi, musiche ed effetti sonori coerenti con il video in questione.

Il modello di IA che alimenta V2A è stato addestrato con un’ampissima combinazione di suoni, trascrizioni di dialoghi e clip video. In questo modo, infatti, grazie a questa particolare forma di addestramento, la tecnologia V2A ha imparato ad associare diverse tipologie di audio a molte scene visive, rispondendo così alle informazioni fornite nelle trascrizioni o nelle varie annotazioni. A oggi, però, DeepMind non ha ancora chiarito pubblicamente se i dati di addestramento della nuova tecnologia sviluppata fossero protetti da copyright.

Quali sono le differenze rispetto agli altri modelli IA

In ogni caso, gli strumenti di generazione del suono basati sull’IA non sono certo una novità. A tal proposito, infatti, settimana scorsa, la startup Stability IA ne ha rilasciato uno, mentre ElevenLabs ne ha lanciato un altro a maggio. Inoltre, anche i modelli per creare effetti sonori nei video sono già stati ampiamente sviluppati. Per esempio, Microsoft ha sviluppato un modello capace di generare video in cui i personaggi al suo interno cantano e parlano a partire da un’immagine fissa.

DeepMind, tuttavia, sostiene che la sua tecnologia V2A è unica, in quanto, a differenza degli altri modelli sviluppati finora, è in grado di comprendere anche i pixel “più grezzi” di un video e di sincronizzarli con un suono coerente. Però, questa nuova forma di tecnologia non è certamente perfetta. Infatti, dato che il modello non è ancora stato allenato su molti video in cui sono presenti, ad esempio, distorsioni (come il video della navicella spaziale riportato), non crea certo un audio di qualità particolarmente elevata per questi ultimi. Pertanto, considerato che DeepMind dovrà ancora lavorare a lungo per sviluppare il pieno potenziale della tecnologia V2A, ha dichiarato che non permetterà ancora al pubblico di utilizzarla liberamente.