Apple, NVIDIA y Anthropic han entrenado modelos de IA usando vídeos de YouTube sin consentimiento
Cuando la IA empezó a hacerse popular, es cuando vimos que muchas empresas pasaron a cambiarse de bando y centrarse en ella. Aunque estamos en una época temprana para hablar de la evolución de la inteligencia artificial, lo cierto es que en poco tiempo hemos mejorado los resultados que produce y se han entrenado modelos nuevos que permiten incluso crear contenido como vídeos. De hecho, hablando de vídeos, justamente se ha descubierto que empresas como Apple, NVIDIA o Anthropic están entrenando sus modelos de IA empleando vídeos de YouTube sin consentimiento de sus creadores.
La IA generativa, como su nombre indica, hace referencia a la inteligencia artificial que es capaz de generar un determinado tipo de contenido. Ejemplos de esto es poder crear texto, imágenes, vídeos o música a partir de una conjunto de palabras denominado "prompt". Todo funciona de forma similar y por tanto, una vez sabemos como funciona una IA en concreto, podemos aplicarlo a otras cosas.
YouTubers como Marques Brownlee han visto como sus vídeos han sido usados para entrenar IA de Apple, NVIDIA y otras
Para poder entrenar modelos de IA se requiere una enorme cantidad de información. Podemos optar a utilizar todos los datos que se encuentran de forma pública en Internet, incluyendo también imágenes y vídeos sin derechos de autor. Sin embargo, esto no será suficiente para poder competir contra las grandes empresas que utilizan mucha más información al respecto. Compañías como Apple empezaron a pagar grandes sumas de dinero para conseguir bibliotecas de imágenes que pudieran usar sin problemas con licencias y derechos. Todo esto les permitiría sacar ventaja a la hora de entrenar con contenido a su inteligencia artificial.
No obstante, una nueva investigación anuncia que tanto Apple como NVIDIA y Anthropic han acabado utilizando sin consentimiento más de 170.000 vídeos de YouTube para sus IA. No se han conformado con emplear vídeos poco conocidos para pasar desapercibidos, pues YouTubers famosísimos como MrBeast, PewDiePie, Marques Brownlee y otros como Stephen Colbert y John Oliver, han sido el objetivo de la IA.
Se han empleado las transcripciones de 173.536 vídeos de YouTube que pertenecen a 48.000 canales
En el vídeo corto de Marques Brownlee, el cual posee más de 19 millones de suscriptores, explica como las grandes compañías tecnológicas utilizan datos que compran a terceras empresas que se encargan de hacer el "scraping" de las páginas web. Una de estas compañías denominada EleutherAI ha recopilado información a través de las transcripciones de 173.536 vídeos de YouTube, que provienen de 48.000 canales. Toda esta información fue comprada por las compañías más importantes de SIlicon Valley, siendo Apple una de ellas, además de la conocida NVIDIA, Anthropic y Salesforce.
Al parecer, EleutherAI es una organización sin ánimo de lucro que afirma hacer esto para ayudar a pequeños desarrolladores a entrenar sus modelos de IA. Sin embargo, grandes empresas como Apple han acabado usando esta información sacada de vídeos de YouTube para su AI. Otro detalle que se ha dado a conocer es que este conjunto de datos se ha publicado bajo el nombre de "The Pile". La mayoría de esta información está disponible para cualquier persona y entidad, por lo que las grandes empresas no han dudado en aprovecharse. El propio Marques Brownlee expresa su malestar con esta situación, pues el asegura que paga en cada vídeo para tener transcripciones más precisas y ahora ve como todas estas se emplean para entrenar IA sin consentimiento.