Pillan a NVIDIA extrayendo «80 años de vídeos» de YouTube y Netflix al día para entrenar una IA, ¿demanda mil millonaria a la vista?

El desarrollo y avances en el sector de la inteligencia artificial se han convertido en una prioridad para muchas empresas. Esto no es de extrañar si tenemos en cuenta la cantidad de dinero que está generando este sector, sobre todo en empresas tecnológicas que ya se han establecido y son importantes para la IA. NVIDIA es una de las que más se benefició gracias a sus gráficas, aunque también desarrolla modelos de IA por su cuenta desde hace un tiempo. Si bien podíamos sospechar de ello, ahora ya se puede confirmar que NVIDIA extrae datos de vídeos de YouTube y otros sitios para entrenar un modelo de IA de última generación, lo que ellos internamente denominan como Cosmos Project.

Cuando ChatGPT llegó a nuestras vidas, revolucionó completamente el concepto que teníamos de la inteligencia artificial. Este chatbot nos permitió poder usar la IA en nuestro día a día, siendo útil en muchas situaciones. Tanto si queríamos obtener una respuesta a una pregunta como si necesitábamos el código de programación para crear un programa o incluso resolver un problema matemático complejo, la IA nos iba a dar los pasos a realizar junto con los resultados. Lo que consiguió OpenAI fue acercar la inteligencia artificial a todo el mundo, sin estar limitada a únicamente generar imágenes.

NVIDIA Project Cosmos es un proyecto interno de la compañía que tiene como objetivo entrenar una IA de última generación con vídeos

NVIDIA servidores IA GB200 2025

Desde ese momento hasta ahora, hemos visto múltiples empresas que se han dedicado a entrenar sus modelos de IA para competir y quitarle clientes a ChatGPT. Compañías como Google, Anthropic e incluso Apple, han estado invirtiendo grandes cantidades de tiempo y recursos para sus IA. Estas empresas junto a NVIDIA han sido acusadas en varias ocasiones de haber utilizado información sacada de la web sin permiso (scraping). De hecho, la última noticia que vimos fue de una empresa financiada por Google y NVIDIA que se encargaba de utilizar vídeos de YouTube para entrenar IA.

Ahora 404 Media ha conseguido recopilar información importante de NVIDIA, pues dispone de chats internos de Slack, correos electrónicos y documentos filtrados de la compañía. Estos hablan del Cosmos Project, un proyecto de NVIDIA que se basa entrenar un modelo de IA de última generación utilizando los datos extraídos de vídeos de YouTube, Netflix y otras fuentes. En los mensajes de Slack filtrados se descubrió que la compañía utilizaba yt-dlp, un programa de código abierto que permite descargar vídeos de YouTube. En este caso usan máquinas virtuales que cambian la IP para evitar bloqueos de YouTube.

NVIDIA aprovecha que no hay una ley que prohíba del todo utilizar datos de uso académico para entrenar una IA de uso comercial

NVIDIA empresa más valiosa mundo

Estamos hablando de tener 20 a 30 máquinas virtuales en AWS (Amazon Web Services) que se encargaban de descargar el equivalente a 80 años en vídeos al día de YouTube y Netflix. Un portavoz de NVIDIA anunció que respetan los derechos de los creadores de contenido, pero cualquiera es libre de aprender con información y datos de otra fuente para crear nuevos productos. Un portavoz de Netflix anunció que no tenían un acuerdo con NVIDIA y ellos no permiten el scraping de datos sin permiso.

En las filtraciones de Slack y documentos se puede ver como NVIDIA usaba MovieNet como base de datos de películas, WebVid con datos de vídeo de GitHub compilados e InternVid-10M con 10 millones de identificaciones de vídeos de YouTube. También se ha revelado la utilización de HD-VG-130M, un conjunto de datos de 130 millones de vídeos de YouTube "solo para uso académico".

Podemos ver todo el progreso en las conversaciones de Slack con los trabajadores de NVIDIA y si llegamos al final, vemos que han recopilado 38,5 millones de URL de vídeos clasificados según la imagen. En la noticia de 404 Media tenéis acceso al resto de la información y podemos concluir con el hecho de que NVIDIA si va a destinar estos datos a uso comercial, algo que si bien no está permitido en algunos conjuntos de datos, no hay una ley establecida que lo prohíba del todo.