Las empresas de IA siguen «scrapeando» todas las páginas web para entrenar sus IA pese a los bloqueos

Diversos medios han comenzado a informar que empresas de inteligencia artificial (IA) están haciendo scraping (obtenido información) a páginas web pese a que existen protocolos destinados a bloquearlos. Por ejemplo, Reuters ha informado que Perplexity, una empresa que describe su producto como "un motor de búsqueda de IA gratuito", se encuentra robando el contenido de diversas páginas web para luego utilizarlo para entrenar sus tecnologías.

Sin ir más lejos, la semana pasada Forbes acusó a Perplexity de robar un artículo suyo que terminó publicándose en múltiples plataformas de forma automática. Por otra parte, otro medio de relevancia como Wired, indicó que Perplexity ha estado esquivando el Protocolo de exclusión de robots, o robots.txt. Hay más páginas webs de este calibre que han acusado a la compañía de robar el contenido. Con robar, hablamos que una compañía valorada en 1.000 millones de dólares está literalmente robando el contenido de las webs y posicionándolas en sitios de búsqueda más elevado. No solo no dejan una mención a la fuente, sino que genera una pérdida de ingresos, y una caída en el nivel de usuarios.

Reuters ha descubierto que Perplexity no es la única compañía de IA que está haciendo scraping

Inteligencia Artificial (IA) scraping paginas web para entrenamiento

Reuters ha informado que Perplexity no es la única empresa de inteligencia artificial que está eludiendo los archivos robots.txt. Esto implica que están haciendo scraping a las páginas web para obtener contenido que luego se utiliza para entrenar sus tecnologías de IA. Evidentemente, todo ello de forma gratuita.

Reuters afirma haber visto una carta dirigida a los editores por TollBit. Desconocida para el mundo, estamos hablando de una startup que los empareja con empresas de IA para que puedan llegar a acuerdos de licencia, en la que se les advierte de que "agentes de IA de múltiples fuentes están optando por saltarse el protocolo robots.txt para recuperar contenidos de los sitios". El archivo robots.txt contiene instrucciones para los rastreadores web sobre las páginas a las que pueden y no pueden acceder. Los desarrolladores web llevan utilizando este protocolo desde 1994, pero su cumplimiento es totalmente voluntario.

Si bien en la carta de TollBit no se menciona a ninguna empresa, el periódico Business Insider ha averiguado un par de nombres. OpenAI y Anthropic también se saltan las señales de robots.txt. Ambas empresas proclamaron anteriormente que respetan las instrucciones de "no rastrear" que los sitios web colocan en sus archivos robots.txt.

Un Internet donde busca predominar el contenido por IA para monopolizar las búsquedas Web (visitas e ingresos)

Inteligencia Artificial (IA) scraping paginas web para entrenamiento

"Durante su investigación, Wired descubrió que una máquina de un servidor de Amazon "operada sin duda por Perplexity" se saltaba las instrucciones del robots.txt de su sitio web". Se indicó desde Engadget.

"Para confirmar si Perplexity estaba rastreando su contenido, Wired proporcionó a la herramienta de la empresa titulares de sus artículos o breves indicaciones que describían sus historias. Al parecer, la herramienta obtuvo resultados que parafraseaban fielmente sus artículos "con una atribución mínima". Y a veces, incluso generaba resúmenes inexactos de sus historias".

Tras esto, el CEO de Perplexity, Aravind Srinivas, dijo que su compañía "no ignora el Protocolo de Exclusión de Robots para luego mentir al respecto". Ahora bien, a su vez reconoce que la compañía utiliza rastreadores web de terceros además del suyo propio. El rastreador identificado por Wired era uno de ellos. Eso sí, estos rastreadores de terceros no se salte el protocolo de robots.txt es otra historia. Cuando se le preguntó a Perplexity que si podía pedir a estos proveedores que dejaran de rastrear la web de Wired, únicamente se limitó a responder que era algo "complicado".

"El CEO de Perplexity defendió las prácticas de su empresa, diciendo a la publicación que el Protocolo de Exclusión de Robots "no es un marco legal" y sugiriendo que los editores y empresas como la suya podrían tener que establecer un nuevo tipo de relación. También habría insinuado que Wired utilizó deliberadamente indicaciones para que el chatbot de Perplexity se comportara como lo hizo, por lo que los usuarios normales no obtendrían los mismos resultados".