Uma investigação recente revelou que vídeos do YouTube estão a alimentar IA sem consentimento dos criadores. A investigação, levada a cabo pela Proof News e divulgada pelo WIRED, mostra que gigantes como Apple, Nvidia, Anthropic e Salesforce usaram legendas e transcrições de mais de 173 mil vídeos de mais de 48 mil canais para treinar os seus modelos de Inteligência Artificial.
Batizada de “YouTube Subtitles”, esta base de dados inclui conteúdo variado: desde canais educativos conhecidos como Khan Academy, MIT ou Harvard, até programas de grande audição como “The Late Show with Stephen Colbert” e “Jimmy Kimmel Live". Também não escaparam estrelas do YouTube: MrBeast, MKBHD, Jacksepticeye e PewDiePie viram os seus vídeos incluídos na base de dados.
Criadores ficaram revoltados
Em resposta, vários criadores ficaram surpreendidos e indignados. David Pakman, do canal “The David Pakman Show”, teve cerca de 160 vídeos usados sem autorização e defende que, se estas empresas lucram com o uso do seu conteúdo, devem compensá-lo financeiramente. Dave Wiskus, criador da plataforma de streaming para criadores de conteúdo Nebula, comentou que “é roubo” e “desrespeitoso” usar trabalho alheio sem consentimento.
Base de dados aparenta ser gigante
Os dados fazem parte de uma compilação maior, chamada “The Pile”, criada pela EleutherAI, que inclui também textos da Wikipédia, transcrições do Parlamento Europeu e e-mails antigos da Enron. Apesar de originalmente destinado a democratizar o acesso à Inteligência Artificial, o Pile tem sido usado por empresas poderosas, como Apple e Anthropic, para treinar modelos como o OpenELM e o Claude.
Grande parte dos criadores só descobriram o uso destes dados pela investigação. Pakman considera que “se estão a faturar com o meu trabalho, deveriam pagar-me”. A polémica levanta questões cruciais sobre ética, direitos dos criadores e regulação no contexto do treino de IA.
Em suma, a prática de “minar” sem autorização conteúdos do YouTube para alimentar modelos de IA coloca em debate a necessidade urgente de compensação e transparência. Afinal, muitos criadores veem os seus esforços usados sem qualquer retorno.