Google, OpenAI, Meta se quedarán sin datos con los que entrenar a la IA en 2026, ¿cómo van a seguir mejorando sus algoritmos?

Unos dicen que la IA es una de tantas burbujas, que como el blockchain o las criptomonedas terminará por explotar más pronto que tarde. Quitando que las dos últimas siguen vigentes y quizás, más vivas que nunca tras años y años, que todas las Big Tech están corriendo como locas a mejorar su IA y que el mundo va igualmente tras ellas con los gobiernos a la cabeza, parece que tampoco será esta la burbuja que muchos dicen. Pero sí que podríamos encontrar un muro que el resto de tecnologías no tuvo, y es que tanto Google como OpenAI así como Meta podrían quedarse sin datos para entrenar a sus IA en 2026.

Sea o no una burbuja, este artículo y estudio dará de qué hablar para los conspiranoicos que sí que piensen que todo está inflado y pinchará. La historia comienza en plena pandemia, donde Epoch, el equipo de científicos que investigan el futuro de la IA, firmó un artículo y análisis donde participaron, entre otros, dos de los nuestros, Pablo Villalobos y Jaime Sevilla, el cual publicaron a finales de 2022. En aquel momento, en pleno despegue de la IA, no parecía muy posible el hecho de que se cumpliesen las conclusiones del estudio, pero en pleno 2024...

Google, OpenAI y Meta podrían quedarse sin datos para entrenar a sus IA ya en 2026

Google-Meta-OpenAI-datos-calidad-IA-2026

Si estás metido de lleno en el mundo de la IA esto no te sorprenderá, pero por si no lo estás, hemos de decirte a modo introductorio que no todos los datos son iguales. Las empresas que compiten por ellos, como las tres citadas, en su mayoría, por no decir todas, tienen segmentados los datos en distintas categorías, las cuales integran mayores o menores prioridades para tratarlos.

Por ello, como es lógico en cualquier ser humano, si quieres mejorar tu IA la prioridad deben ser aquellos datos denominados como "de alta calidad", y ahí está el problema de base.

Datos-de-calidad-Epoch-IA

En su análisis, Epoch aseguró ya en 2022 que los datos lingüísticos de alta calidad se habrían agotado antes de que llegara 2026, los datos de baja calidad entre 2030 y 2050, y los datos de visión entre 2030 y 2060.

Si bien es cierto que afirman que las conclusiones se basan, lógicamente en suposiciones en principio poco realistas porque no pueden controlar ni el número de empresas que trabajarán los datos, ni el hardware y su potencia, ni cómo se moverá el mercado en dicho futuro. Resulta que las tres grandes del mundo, Google, OpenAI y Meta, están moviéndose a un ritmo endiablado buscando datos como locos.

¿Llevaban razón los chicos de Epoch? Pues vamos a ver qué están haciendo las tres grandes de los datos para IA y que cada uno saque sus conclusiones.

OpenAI entrenó a Sora con vídeos de YouTube y Google se ha levantado en pie de guerra

IA Sora

Fuera de que Google podría llevar razón y terminar moviendo el tema a los tribunales, Whisper y Sora, las IA de OpenAI, han sido entrenadas con vídeos de YouTube y podrían haber roto las condiciones de la plataforma. El problema no es ese, sino el motivo de hacerlo siendo conscientes de esto.

Se dice que GPT-4 habría sido entrenado con más de un millón de horas de vídeos, donde después se habrían transcrito con Whisper para su posterior procesamiento de información. Esto quiere decir que Internet como tal, la información escrita, se ha quedado realmente corta para OpenAI.

Por ello, la compañía que preside Sam Altman está buscando otros métodos, puesto que YouTube quedará visto para sentencia (badum tsss). El más avanzado y que se está estudiando es generar sus propios datos, llamados sintéticos, lo cual, parte del hecho de que los datos de calidad han sido correctamente tratados, son muy buenos, y la IA es capaz de generar otros relativos o anexos a estos con la suficiente calidad pese a ser sintéticos.

Google se abriría a sus plataformas, las cuales están llenas de datos

Google-Docs,-Sheets,-slides

Como era de esperar, Google primero cambia las condiciones de los servicios y luego actúa, no sin pensar obviamente. Lo que pretende la gran G es poder introducirse en Google Docs, Sheets, Slides, Meet y en definitiva, cualquiera de sus plataformas para, de manera legal, poder utilizar los datos que contienen en sus versiones de pago o gratuitas y así extraer más datos para entrenar a la IA y mejorar tanto sus productos como sus servicios.

Esto está encima de la mesa y seguramente estén buscando cómo hacerlo de forma legal, siempre y cuando no quiebre las regulaciones anteriores, porque lo interesante es ceñirse a cualquier dato alojado, no desde ahora hacia delante. Sea como fuere, se está estudiando.

Comprar o pagar por acceder a datos de periódicos, editoriales o repositorios

Apple IA imágenes licencia

Lo vimos con Apple esta misma semana, la cual está pagando una ingente cantidad de dinero, realmente bestial, para entrenar con imágenes de calidad a su IA. El valor de los datos está en alza, así que los que generes realmente valen un buen dinero dado que seguro llevas décadas suministrándolos a la red.

Por ello, y para no tener problemas legales, casi todas las compañías están intentando comprar o "alquilar", los datos de empresas como Simon & Schuster, periódicos nacionales, repositorios de pago online, plataformas de música, y en definitiva, hasta apps de citas tipo Tinder o Meetic.

Todo vale, al final es dinero, y en un momento económico muy complicado las empresas poseedoras de los datos terminarán, antes o después, por cambiar las condiciones de los contratos con los usuarios, sean de pago o no, para vender sus bases de datos al completo a una de las grandes.

Vistos los movimientos que se están haciendo bajo cuerda, ¿acertaron en Epoch con su análisis sobre el hecho de que en 2026 o antes se acabaron los datos de calidad para entrenar la IA?