Nvidia utiliza videos de Youtube y Netflix para entrenar su IA y la acusan de hacer «scraping»

Unos chats internos de Nvidia se habrían filtrado, revelando que la compañía habría utilizado videos de YouTube y Netflix para entrenar su IA.

Nvidia utiliza videos de Youtube y Netflix para entrenar su IA ¿Está violando los derechos de autor?

Se ha desatado la polémica luego de que se filtrasen chats internos de Slack de la compañía, que fueron revelados por el sitio 404 Media. En los chats se puede ver algunas conversaciones entre los empleados y el proceso de entrenamiento de IA dentro del proyecto llamado “Cosmos”.

Este proceso consistía en descargar videos de Netflix y, principalmente, de YouTube para entrenar distintos sistemas de IA de Nvidia. Se menciona a 3D Omniverse como una de las herramientas que fueron entrenadas con este proceso.

Al parecer, las conversaciones fueron filtradas por un ex empleado de Nvidia (anónimo). Las conversaciones de Slack revelan que los empleados dentro del proyecto Cosmos debían usar el descargador de vídeos de YouTube de código abierto “yt-dlp” con máquinas virtuales para evitar los bloqueos de la plataforma. Sin embargo, esta no era la única fuente de videos, también se descargaban videos de Netflix y otras fuentes. Al parecer, existían entre 20 y 30 máquinas virtuales en Amazon Web Services para descargar videos, una cantidad que ascendían a 80 años de videos por día.

«Estamos ultimando la canalización de datos v1 y asegurando los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda producir datos de entrenamiento diarios por valor de una experiencia visual de toda una vida humana», declaró en mayo Ming-Yu Liu, vicepresidente de Investigación de Nvidia y responsable del proyecto Cosmos, en un correo electrónico.

Hay una gráfica donde muestran que para finales de mayo se habían descargado 38,5 millones de videos, que ellos dividieron por categorías.

Empleados de Nvidia plantearon preguntas sobre el uso de recursos con derechos de autor para entrenar su IA en el canal de Slack, como podemos observar a continuación:

“Hola equipo. ¿Estamos usando https://research.google.com/youtube8m/download.html para descargar los videos? Si es así, ¿tenemos la aprobación legal para ello? En uno de los proyectos, el departamento legal se negó a usarlo porque la licencia de los videos individuales reemplaza la licencia compartida en YouTube”.

Respuesta de Min-Yu Liu:

“Esta es una decisión ejecutiva. Tenemos una aprobación general para todos los datos”, respondió Liu.

¿Qué tan legal o ético es esta práctica? Nvidia responde

La compañía verde ha salido a responder estas dudas a 404 Media, donde dicen lo siguiente:

“Respetamos los derechos de todos los creadores de contenido y confiamos en que nuestros modelos y nuestros esfuerzos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor”, dijo un portavoz de Nvidia a 404 Media en un correo electrónico. “La ley de derechos de autor protege expresiones particulares, pero no hechos, ideas, datos o información. Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y utilizarlos para crear sus propias expresiones. El uso legítimo también protege la capacidad de utilizar una obra con un propósito transformador, como el entrenamiento de modelos”.

Google cree que sí viola los derechos de autor

Google le respondió a 404 Media que el uso de videos de YouTube para entrenar una IA es una clara violación de los derechos de autor. Google enlazo a una publicación de Bloomberg del mes de abril, donde dejaron clara su posición cuando salió el caso de OpenAI entrenando a su inteligencia artificial Sora con videos de su plataforma.

Netflix no tiene ningún acuerdo con Nvidia

Un portavoz de Netflix le dijo a 404 Media que ellos no tienen ninguna clase de acuerdo para utilizar su contenido para entrenar ninguna IA y que no permiten el “scraping”, que básicamente es utilizar herramientas o códigos para extraer contenido de un sitio.

¿Que pasara ahora?

Nvidia estaría cometiendo dos faltas aquí, una la de utilizar contenido con derechos de autor para entrenar a una IA, y la otra es la de hacer scraping de contenido de sitios web.

En este momento es difícil determinar si terminara en alguna demanda por parte de YouTube o Netflix hacia Nvidia, en un terreno donde hay muchos grises y no parece estar tan regulado, como es el caso de la IA y como se utiliza el contenido con derechos de autor. Os mantendremos al tanto de todas las novedades de este caso.

Recent Posts

  • Reviews

Asus ZenWiFi BT8 Review en Español (Análisis completo)

Asus ZenWiFi BT8 es un sistema Mesh Wi-Fi 7 el cual se sitúa por debajo…

50 mins atrás
  • Portátiles y ordenadores

Snapdragon X: Qualcomm anuncia nuevos modelos de gama baja, apuntan a portátiles de 600 dolares

Qualcomm anuncia nuevos SoC Snapdragon X, pero no se trata de una nueva generación, sino…

1 hora atrás
  • Tutoriales

Actualiza tu equipo en estas fiestas de la mano de NVIDIA GeForce RTX con estas ofertas

NVIDIA no solo da razones teóricas, sino fundamentos en forma de ofertas de todo GeForce…

3 horas atrás