Un archivio di dati controverso
Un’inchiesta di Proof News, diffusa anche da Wired, ha portato alla luce un enorme archivio di dati contenente sottotitoli estratti da video di YouTube, utilizzati per migliorare le intelligenze artificiali di colossi come Apple, Nvidia e Salesforce, senza il permesso dei creatori originali. L’archivio, chiamato “YouTube Subtitles”, include sottotitoli da oltre 48.000 canali YouTube, ma non le immagini associate. Tra i contenuti utilizzati ci sono filmati di celebri youtuber come MrBeast e Marques Brownlee, oltre a clip di importanti testate giornalistiche tra cui Abc News, Bbc e il New York Times.
Un motore di ricerca per verificare l’utilizzo dei propri contenuti
Oltre a rivelare l’utilizzo non autorizzato dei video, l’inchiesta ha portato alla creazione di uno strumento prezioso per gli utenti. Si tratta di un motore di ricerca interattivo che permette di verificare se i propri contenuti YouTube, o quelli di altri creatori, sono finiti nel controverso dataset.
La necessità di grandi quantità di dati per l’addestramento delle IA
“La maggior parte degli sviluppatori di modelli di intelligenza artificiale è riservata sulle fonti dei propri dati di training. Questi hanno bisogno di grandi quantità di testo di alta qualità per creare modelli che imitano il parlato e la scrittura degli uomini. Per lo scopo, vengono usati libri, blog, disegni, opere originali e altri lavori, spesso senza che i creatori ne siano a conoscenza” scrive Proof News.
Il caso di Google e YouTube
All’inizio di quest’anno, il New York Times ha riferito che Google, che fa parte di Alphabet, azienda madre anche di YouTube, ha sfruttato i video sulla piattaforma per inserire testo e addestrare i suoi modelli.
La questione dell’etica nell’utilizzo dei dati
Questa vicenda solleva importanti questioni etiche sull’utilizzo dei dati per l’addestramento delle intelligenze artificiali. La necessità di grandi quantità di dati di alta qualità per sviluppare modelli di IA avanzati è innegabile, ma è fondamentale garantire il rispetto dei diritti dei creatori e la trasparenza nell’utilizzo dei loro contenuti. L’accesso a un motore di ricerca che consente di verificare se i propri contenuti sono stati utilizzati senza consenso è un passo importante in questa direzione.