Nuovi problemi per l’intelligenza artificiale. Questa volta a finire al centro dell’attenzione sono i modelli di IA di aziende come Apple NVIDIA e Anthropic. Un’indagine condotta da Proof News ha infatti scoperto che questi e altri modelli di intelligenza artificiale sono stati addestrati utilizzando un set di dati che comprendeva più di 173000 trascrizioni di video di YouTube. Il tutto in violazione dei termini e delle condizioni di utilizzo della piattaforma e senza l’autorizzazione dei relativi creator.

Il problema dell’addestramento dei modelli di intelligenza artificiale

Non è la prima volta che si verifica un approccio di questo tipo. A fine 2023 il New York Times ha denunciato OpenAI e Microsoft (le aziende proprietarie di ChatGPT e Copilot) per violazione del copyright. L’accusa era molto chiara: aver addestrato i propri modelli linguistici usando milioni di articoli del celebre quotidiano statunitense.

Il problema si è ora riproposto con il set di dati creato dalla società no-profit EleutherAI che comprende trascrizioni di video provenienti da più di 48000 canali YouTube. Un set di dati utilizzato da diverse aziende tra cui Apple, NVIDIA e Anthropic. Il set di dati non comprende video o immagini ma le trascrizioni dei video di alcuni dei più importanti creator internazionali e di quelli di editori del calibro della BBC e, ancora, del New York Times. Per approfondire eccp l’inchiesta completa condotta da Proof News.

Inoltre all’inizio di luglio diversi fotografi e artisti avevano rivolto delle critiche ad Apple per non aver rivelato la fonte dei dati con cui aveva addestrato Apple Intelligence, il servizio di IA generativa che Cupertino renderà disponibile nei prossimi device.