Cloudflare lanza una herramienta gratuita para impedir que los bots de empresas de IA hagan «scraping» en los sitios web

La inteligencia artificial ha cambiado totalmente la forma en la que vemos y hacemos las cosas. Algo como escribir un libro, un email formal a una compañía o dibujar algo realista, es capaz de hacerlo una IA en cuestión de segundos. Todo ese esfuerzo que se dedicaba en creación de contenido es posible ahorrárselo con la IA generativa. Para poder crear estos modelos de IA se requiere entrenarlas con una enorme cantidad de datos y claro estos se obtienen de Internet. Empresas como Perplexity fueron descubiertas haciendo scraping para entrenar a las IA sin permiso y esta es solo una de las múltiples compañías que están involucradas. Por suerte, Cloudflare ha lanzado una herramienta gratuita que tiene como objetivo impedir que los bots de las empresas de IA hagan scraping.

En estos momentos, la inteligencia artificial ocupa el interés de un gran número de empresas en todo el mundo, que buscan quedarse con una parte de este sector tan popular. Si bien OpenAI y ChatGPT siguen siendo imparables en cuanto a popularidad, lo cierto es que han aparecido competidores por parte de Google, Anthropic, Meta y otras que muestran como sus nuevos modelos son superiores a GPT-4 de OpenAI. Al menos esto en la teoría, ya que en la práctica aún no hemos visto un chatbot o herramienta similar que se haya puesto por delante de lo que ya conocemos.

Cloudflare se encarga de parar las oleadas de bots que hacen scraping para entrenar IA con una herramienta gratuita disponible para sus clientes

 0

Para entrenar modelos de IA hemos visto a compañías conocidas como Apple pasar por caja para conseguir una gran biblioteca de imágenes sin licencia. Hace unos meses se reveló como la manzana mordida había pagado 50 millones a Shutterstock para conseguir esta información y así entrenar a su IA. Además, se mencionaba que su siguiente objetivo era pagar a Photobucket por sus imágenes. Al igual que hay compañías que pagan para obtener imágenes de forma legal, también nos encontramos con muchas otras que acaban recopilando información de forma ilegal.

El scraping de sitios web se emplea para obtener los datos de estas y todo esto de forma gratuita, saliendo beneficiados de ello. Cloudflare ha decidido pararles los pies y ha lanzado una herramienta que se encarga de frenar la oleada de bots. Esta está disponible para todos sus clientes, incluidos aquellos que tienen planes gratuitos, por lo que está al alcance de cualquiera. Según las estadísticas de Cloudflare, el 85,2% de los clientes ha decidido bloquear el acceso a los bots, incluyendo aquellos bots de IA que se han identificado correctamente.

Los bots más detectados pertenecen a ByteDance, OpenAI y Amazon

Inteligencia Artificial (IA) scraping paginas web para entrenamiento

Cloudflare ha avisado que esta herramienta se irá actualizando a medida que vayan apareciendo más bots que se encargan de realizar scraping para entrenar la IA de forma ilegal y gratuita. La compañía también ha dado detalles interesantes de algunos de los bots más conocidos. Por ejemplo, el bot Bytespider, propiedad de ByteDance (TikTok), intentó acceder a un 40% de los sitios web que controla Cloudflare. Por otro lado, el GPTBot de OpenAI accedió al 35% y Amazonbot y Claudebot también se encuentran entre los bots de IA más rastreados.

Si bien todos estos pertenecen a compañías muy conocidas, ya vimos que se había denunciado con anterioridad al bot de Perplexity AI por rastrear sitios web sin los permisos necesarios. Cloudflare teme que las empresas de IA acaben ignorando las leyes y por tanto, seguirán añadiendo más bots a los bloqueos según progresen sus modelos de aprendizaje automático.