Microsoft, Google y Meta están entrenando sus nuevas IA con otra IA a base de datos falsos
Hace algún tiempo hablamos de uno de los principales problemas que presentan todas las empresas de IA punteras: la falta de datos de calidad. Aunque no lo parezca, sus servidores, sus GPU y SoC, devoran todos los días millones de datos de todo tipo según el objetivo de entrenamiento, hasta tal punto, de que a día de hoy dichos datos de calidad se han agotado a nivel mundial en Internet. Por tanto, ante esto, Microsoft, Google y Meta están entrenando sus nuevas IA con otras IA creando lo que se llaman datos falsos, ¿estamos yendo demasiado lejos?
La IA ha terminado con todos los datos de calidad de Internet en las grandes empresas, y ahora solo quedan las migajas con unos de peor desempeño, algo que no quiere ninguna de las tres compañías. Si algo hay que entender de la IA es que tiene una necesidad inagotable de datos, los cuales son necesarios para que mejore, así que han movido ficha, y el resultado asusta por lo distópico del asunto.
No quedan editores, periódicos, webs o plataforma con datos de alta calidad: Microsoft, Google y Meta a por los datos falsos de IA
Lo han comprado todo a base de talonario. Las tres grandes han invertido tal cantidad de dinero a base de pagos por hacerse con los datos de todo lo que pueda transmitirse por tierra, mar y aire que tenían que dar un paso adelante. ¿Cómo lo van a hacer? Pues tanto Microsoft, como Google y Meta crearán los llamados datos sintéticos, o también llamados datos malos.
Para ello, cogen sus IA más evolucionadas y las ponen a trabajar para generar cualquier tipo de contenido que esté dando resultados con una calidad aceptable. Normalmente es texto, pero las más avanzadas pueden crear algo de audio y vídeo fidedigno.
Por tanto, estos datos malos, o también llamados datos artificiales, entrenarán cada vez a un mayor número de IA siempre que el resultado sea el que los investigadores desean. El director ejecutivo de Anthropic deslizó que internamente los llaman, "motor de generación de datos infinito".
Se acabaron los pleitos y demandas para siempre
El objetivo tiene un segundo beneficio más allá del que hemos contado, y es el hecho de terminar con cualquier demanda interpuesta por personas o empresas. Como los datos son generados por sus propias IA, el resultado es nuevo, y la tortilla podría darse la vuelta finalmente si tanto Google como Microsoft y Meta usan esos datos malos finales para ofrecerlos al público y empresas cobrando por ellos. ¿Jugada maestra? Podría ser.
Han usado a diestro y siniestro todo lo que hay en Internet, la mayor parte de las veces sin pagar. Aunque esto es una posibilidad, de momento, todas se centran en mejorar esos datos malos para terminar convirtiéndolos en datos de calidad, pero además, hay otras mejoras al usarlos. Sébastien Bubeck, vicepresidente de IA generativa de Microsoft, comenta que:
"De repente, tienes mucho más control. Puedes decidir con un nivel de granularidad mucho más fino qué es lo que quieres que aprenda tu modelo".
Por supuesto, hay riesgos, como el llamado "colapso del modelo". ¿Qué ocurre si los datos no son de calidad o los investigadores creen que sí, pero no es así, y al entrenar una IA con otra IA el modelo falla estrepitosamente? La respuesta es simple: los defectos son irreversibles. Hablamos del colapso del modelo e IA a desarrollar, es decir, miles de millones de dólares en pérdidas y posiblemente pérdidas en bolsa incluso mayores.
Un estudio de la Universidad de Cambridge dejó una conclusión al respecto diciendo que "los datos sintéticos pueden ser útiles si se hacen correctamente. Sin embargo, no hay una respuesta clara sobre cómo hacerlo bien; Algunos de los prejuicios pueden no ser tan obvios para un ser humano”.
Por tanto, se necesita mucho trabajo humano para poder guiar a la IA en estos datos falsos, así que Microsoft, Google y Meta tienen mucho trabajo por delante, y esperemos que el resultado sea muy bueno, o enfrentarán serios problemas tras las increíbles inversiones que están haciendo en estas y otras técnicas de entrenamiento.