Medios bloquean el entrenamiento de la IA a través de Internet Archive
Al menos 245 organizaciones de noticias en nueve países evitan el sistema automatizado que permite capturar y almacenar páginas web en la conocida Wayback Machine.

La creciente restricción de medios de comunicación al rastreador Wayback Machine, revela una fractura irreversible en el ecosistema digital: la lucha por evitar que décadas de archivos históricos se conviertan en el alimento de la inteligencia artificial generativa.
El ecosistema de la información digital atraviesa su transformación más convulsa desde la invención de la World Wide Web. Durante casi tres décadas, la relación entre los editores de medios y organizaciones como Internet Archive fue, si no simbiótica, al menos de tolerancia respetuosa.
La Wayback Machine actuaba como la biblioteca de Alejandría de nuestra era, capturando instantáneas del conocimiento humano para evitar que desaparecieran en el olvido del link rot (enlaces rotos). Sin embargo, esa tregua al parecer ha terminado.
Hoy en día, los bloqueos al Internet Archive se multiplican exponencialmente. La razón no es un rechazo a la preservación histórica, sino una maniobra defensiva de supervivencia: el uso masivo y no autorizado de contenidos periodísticos para el entrenamiento de modelos de inteligencia artificial (IA).
Para los grandes grupos editoriales, la Wayback Machine ha pasado de ser un aliado de la memoria a un punto de vulnerabilidad crítica. El problema radica en la arquitectura de los modelos de lenguaje (LLM). Empresas como OpenAI, Google o Anthropic requieren de vastos conjuntos de datos para "enseñar" a sus algoritmos a escribir, predecir la siguiente palabra y sintetizar información.
Los medios de comunicación han detectado que estos desarrolladores de IA –o empresas que recolectan datos para ellos– utilizan los archivos de Internet Archive para acceder a contenidos que, en sus sitios originales, están protegidos por muros de pago (paywalls). Al indexar la versión "abierta" que Internet Archive guardó hace meses o años, las tecnológicas obtienen una materia prima de altísima calidad sin haber pagado una sola suscripción ni negociado una licencia de uso.
Desde el Internet Archive, su director Mark Graham ha defendido que la institución actúa como un intermediario técnico y ha calificado la situación como un “daño colateral”, derivado del uso que terceros hacen de los datos archivados. Aun así, la organización ha introducido restricciones en la descarga masiva de contenidos y ha limitado ciertos procesos automatizados para reducir el acceso indiscriminado.
El debate se extiende también al ámbito de los derechos digitales y la preservación histórica. Organizaciones como Fight for the Future han impulsado iniciativas contra estos bloqueos, con el apoyo de periodistas que advierten del riesgo de fragmentar el registro público de la información.
La disputa refleja una tensión creciente entre la protección de la propiedad intelectual, el desarrollo de la inteligencia artificial y la conservación del patrimonio informativo en internet.
La trinchera
La respuesta de los medios ha sido técnica y contundente. Mediante la modificación del archivo robots.txt –un protocolo estándar que indica a los rastreadores qué partes de un sitio pueden visitar–, cabeceras de renombre mundial han comenzado a excluir explícitamente al rastreador de Internet Archive (ia_archiver).
Esta decisión tiene consecuencias colaterales profundas. Al impedir la indexación, se detiene la creación de un registro histórico. Si un medio cierra o un artículo es borrado por presiones políticas o cambios editoriales, ya no habrá una copia de seguridad pública para consultarlo. La "memoria volátil" de internet se vuelve aún más frágil en aras de proteger el valor comercial del dato.
“Estamos entrando en una era de fragmentación. El internet que conocíamos, donde buscadores y archivadores podían navegar libremente para organizar la información del mundo, se está cerrando tras muros técnicos y legales.”
Brewster Kahle
Fundador de Internet Archive
El sector periodístico argumenta que el entrenamiento de la IA representa una forma de "extractivismo digital". Los medios invierten millones en enviar reporteros a diversas zonas y coberturas, mantener unidades de investigación y verificar datos. Cuando una IA consume ese trabajo para generar respuestas que luego compiten con el propio medio por la atención del usuario, se rompe el ciclo económico del periodismo.
La tendencia actual muestra que los editores ya no están dispuestos a que su propiedad intelectual sea el "almuerzo gratis" de Silicon Valley. La proliferación de bloqueos es, en esencia, un grito de guerra para forzar acuerdos de licenciamiento. Si las tecnológicas quieren usar el archivo histórico de un periódico para que su IA sea más inteligente, deberán pagar por ello.
Futuro privado
El conflicto plantea preguntas filosóficas sobre quién es el dueño de la historia digital. Brewster Kahle, fundador de Internet Archive, ha defendido siempre que el acceso universal al conocimiento es un derecho. Pero en 2024, ese "conocimiento" tiene un precio de mercado incalculable.
“Estamos entrando en una era de fragmentación. El internet que conocíamos, donde buscadores y archivadores podían navegar libremente para organizar la información del mundo, se está cerrando tras muros técnicos y legales”, dijo.
Los bloqueos a la Wayback Machine son sólo el síntoma de una enfermedad más profunda: la pérdida de la confianza en el espacio público digital.
Si esta tendencia continúa, el registro histórico de nuestra civilización ya no residirá en una organización sin fines de lucro abierta a todos, sino en bases de datos privadas, propietarias y bajo llave, accesibles sólo para aquellos que puedan pagar por el privilegio de recordar.
El debate
Para los analistas, de seguir esta tendencia, el registro histórico de nuestra civilización ya no residirá en una organización sin fines de lucro abierta a todos, sino en bases de datos privadas, propietarias y bajo llave, accesibles sólo para aquellos que puedan pagar por el privilegio de recordar.