Software

Cloudflare AI Labyrinth: combate a los bots mostrando webs con información irrelevante parando el scraping de datos

Compartir

La inteligencia artificial ha experimentado un boom de popularidad desde que hace unos años empezaron a aparecer herramientas de IA generativa capaces de crear contenido de todo tipo. Aquí debemos diferenciar entre la IA generativa de textos y la IA generativa de imágenes y otro contenido, pues en el primer grupo entran ChatGPT y cualquier asistente mientras que en el otro grupo tendríamos Midjourney, Runway y otras. Para poder seguir mejorando los resultados y precisión de la IA se requiere entrenarla con cada vez más datos y estamos llegando a un punto donde se llegan a romper las normas a cambio de conseguir la valiosa información. Cloudflare ha decidido defender a los afectados por los bots que hacen scraping de datos y para ello usará una función llamada AI Labyrinth.

Después del gran éxito que tuvo ChatGPT, decenas de empresas en todo el mundo quisieron también apuntarse a este nuevo sector de la IA que parecía ser muy rentable. Así pues, para poder competir contra OpenAI tuvieron que invertir muchos millones tanto en comprar hardware (GPU de NVIDIA principalmente) como en el tiempo requerido para crear los nuevos modelos de inteligencia artificial. Así es como vimos el surgimiento de Claude de Anthropic o Llama de Meta o Gemini de Google.

Cloudflare AI Labyrinth es una nueva función que combatirá a los bots que hacen scraping de datos

La mayoría de estos modelos de IA se entrenaba usando conjuntos de datos que estaban libres de derechos de autor e incluso eran de uso gratuito. Es cierto que algunas optaron por comprar bibliotecas de imágenes y otro contenido que si estaba protegido, pero al final suponía gastar más millones de dólares. Aunque solo llevamos un años utilizando toda esta información, Elon Musk ya dijo que pronto sería el final de los datos para entrenar IA y habría que mirar alternativas para seguir mejorándolas.

Hasta que ese día llegue veremos a las compañías usar cualquier método para poder conseguir más información y eso incluye también utilizar datos extraídos de webs, vídeos de YouTube

y Netflix (como hizo NVIDIA). El scraping de datos es algo que sigue existiendo hoy en día y para combatir el uso indebido de los datos para entrenar la IA, Cloudflare ha anunciado la función AI Labyrinth. Esta función dará dolores de cabeza a las empresas de IA que se encargan de rastrear las webs sin permiso para recopilar datos de entrenamiento. Labyrinth AI es un concepto interesante, pues la idea detrás de esto es crear un "laberinto" de páginas web que parecen reales e importantes, pero realmente no sirven para entrenar las IA.

Labyrinth AI es un "Honeypot Next Gen" que resulta muy efectivo contra bots, pero no engañará a las personas

Con Labyrinth AI en lugar de bloquear directamente los bots, deja que estos se pongan a rastrear las webs, pero claro, no consiguen lo que quieren. Estos empezarán a hacer scraping de datos de páginas web generadas por IA lo suficientemente convincentes para engañar a los bots y según Cloudflare, esto permite que el rastreador pierda tiempo y recursos. La empresa conocida por proporcionar servicios de infraestructura y seguridad en páginas web ha mostrado esta nueva función como un sistema más eficaz contra el rastreo de datos, pues lo que hace es fastidiar a las empresas de IA detrás de estas prácticas.

La compañía asegura que el contenido que muestran a los bots no tiene nada que ver con la página web que han ido a rastrear. Eso sí, las webs generadas por IA hacen uso de datos científicos reales, ya que no quieren que se difunda información errónea. Este sería un mecanismo de "honeypot de nueva generación" y considera que solo los bots pueden caer en la trampa, pues ninguna persona se metería en 4 o 5 webs que no tienen nada que ver con la que está mirando.

Borja Colomer

Los comentarios de Disqus están cargando....
Publicado por
Borja Colomer

Entradas recientes

La Nintendo Switch 2 usa el SoC NVIDIA Tegra T239, y sí, eso es una mala noticia

Gracias a las últimas filtraciones, ya se puede confirmar que la Nintendo Switch 2 usará… Leer más

8 horas hace

NGS, la secuenciación de ADN «Next Gen» es vulnerable a ciberataques: pueden acceder a tus datos, rastrearte o crear malware con un ADN sintético

Todos los seres vivos están compuestos por el conocido ácido desoxirribonucleico, el conocido como ADN… Leer más

9 horas hace

ASUS, GIGABYTE y MSI subirán los precios de sus placas base y no dan explicaciones ni motivos

Si tenías pensado actualizar tu PC pronto, mejor ponte cómodo porque vienen curvas. La cosa… Leer más

10 horas hace

China tiene la primera ciudad del mundo con una infraestructura de fibra óptica a 10 Gbps

Hoy ha sido noticia que Xiong'an, una ciudad China, se ha convertido en la primera… Leer más

11 horas hace

Google confiesa ante el tribunal de EE.UU. que pagó «grandes sumas de dinero» a Samsung por incluir su IA en los móviles Galaxy

Google domina Internet no solo con el buscador web más popular del mundo, sino también… Leer más

11 horas hace

Las RTX 50 de GIGABYTE en problemas: la masilla térmica se derrite y se filtra por la gráfica, sobre todo si está en vertical

Uno de los principales problemas que han tenido todos los fabricantes con esta serie de… Leer más

12 horas hace