Internet Archive: La gran biblioteca de internet, en la 'UCI'

Sede en san Francisco de Internet Archive, que fue antes una iglesia de la Cienciología. — Sede en San Francisco de Internet Archive, que fue antes una iglesia de la Cienciología. — Girl2k / Wikipedia, Public Domain

Madrid

02/11/2024 21:36

Internet Archive funciona desde hace décadas como una gigantesca memoria que almacena datos de una enorme cantidad de sitios web; es una biblioteca global en el que uno puede comprobar gratis cómo era internet —y productos digitales como software, música o videojuegos— en sus inicios y cómo ha evolucionado. Recientes derrotas judiciales por copyright, ataques a su sitio web y el robo masivo de datos personales —también la IA— amenazan seriamente la propia existencia de este repositorio libre, abierto y gratis.

En concreto, el pasado 9 de octubre uno de los fundadores de la web Internet Archive, Brewster Kahle, confirmó un ataque masivo de denegación de servicio distribuido (DDoS), un hecho que sucedió apenas nueve días después de que se constatase una brecha de seguridad en sus bases de datos que implicó el robo de datos personales de 31 millones de registros únicos o cuentas de usuarios de www.archive.org.

De todo ello fue alertando a través de su cuenta en X Troy Hunt, creador de Have I Been Pwned? (HIBP), una herramienta web que permite a cualquier usuario comprobar si sus datos han sido robados o están comprometidos a causa de alguna brecha de seguridad.

Let me share more on the chronology of this:

30 Sep: Someone sends me the breach, but I'm travelling and didn't realise the significance
5 Oct: I get a chance to look at it - whoa!
6 Oct: I get in contact with someone at IA and send the data, advising it's our goal to load…
— Troy Hunt (@troyhunt) October 9, 2024

Las penalidades para esta enorme biblioteca digital sin ánimo de lucro no terminan ahí. Desde hace ya cuatro años grandes editoriales y discográficas mantienen un pulso contra este enorme repositorio de la memoria de la web, al que acusan de piratería.

Aunque Internet Archive se defiende alegando el uso justo del contenido (fair use), en septiembre perdió una importante apelación en EEUU contra Hachette, uno de los gigantes que había demandado a la biblioteca online ya que consideraba una infracción del copyright el préstamo masivo de libros escaneados –cerca de 500.000 títulos– , una actividad incrementada sustancialmente durante la pandemia mundial de covid.

Esta actividad de préstamo de libros, creada en 2005 bajo el nombre de Open Library, nació como una alternativa a Google Books pero con una óptica no comercial. El acceso a los libros digitalizados se realiza bajo un marco llamado préstamo digital controlado (CDL) y gozaba de alianzas con decenas de bibliotecas físicas de todo EEUU. Su pecado fue no pedir permisos a las editoriales para digitalizar y prestar sus libros, algunos descatalogados.

Por su parte, ciertas demandas interpuestas por varias discográficas y en especial por Universal Music Group Recordings (que alega que Internet Archive infringió los derechos de autor al digitalizar grabaciones), si ganan en los tribunales, podrían amenazar la existencia misma de la biblioteca por las potenciales indemnizaciones millonarias.

Gran drama la caída de @internetarchive y su enorme biblioteca que contiene libros descatalogados o virtualmente imposibles de conseguir en España. https://t.co/rz39YuGgF7
— Julio Martín Alarcón (@Julio_M_Alarcon) October 21, 2024

La supuesta violación de los derechos de autor tiene que ver con la puesta en marcha de un proyecto para recuperar las grabaciones originales de discos antiguos que funcionaban a 78 rpm, un formato vigente entre 1890 y 1950. Para las discográficas, este proyecto "socava el valor de la música", pese a que se ha demostrado que cada una de las 2.750 canciones subidas tienen un oyente al mes de promedio. El proyecto permanece cerrado.

El asedio a Internet Archive puede llegar a afectar a Wikipedia

En un completo perfil que la revista especializada Wired publicó recientemente, el veterano cofundador y actual alma del sitio, Brewster Khale, aparece como un nostálgico y millonario custodio de tan gigantesco archivo, pura memoria de la breve —e intensa— historia de internet.

La importancia de Internet Archive y su herramienta Wayback Machine es esencial en muchísimos campos, desde el jurídico (como fuente de investigaciones judiciales, especialmente en el campo de las patentes) hasta el periodístico, como una forma de hemeroteca.

Una faena para la Wikipedia

El implacable asedio a Internet Archive puede llegar a afectar a la propia enciclopedia abierta Wikipedia, por la sencilla razón de que sus editoras usan bots para detectar cambios en las direcciones URL de sus fuentes, de modo que puedan buscarse esos contenidos preservados gracias a Wayback Machine.

Patricia Horrillo es una veterana editora de Wikipedia en España y muestra su preocupación por una eventual desaparición de Internet Archive. Ella remarca, en conversación con Público, algo que a menudo se obvia: "Internet no perdura en el tiempo". "De hecho", añade, "sólo en la última década se ha perdido entre un 20% y 30% de toda la información disponible en internet". Horrillo apunta, además, que en los próximos años se perderá entre el 40% y el 60% de esa información.

"En la última década se ha perdido entre un 20% y un 30% de toda la información en internet"

Sitios cerrados, muros de pago, medios desaparecidos, páginas de administraciones que ya no funcionan, blogs abandonados o servicios de hosting desaparecidos hacen cada vez más necesaria la existencia de un repositorio que garantice la memoria digital de todas. "Por ejemplo, en Argentina, Milei ha cerrado la agencia de noticias Télam, y con ello sus históricos se han perdido", apunta Horrillo, que explica que en el caso de Wikipedia "afecta a las fuentes directas de nuestras informaciones, que no podemos documentar muchas entradas si todo esto desaparece".

Todo ello sin contar con que hay una creciente masa de información crítica que se publica en redes sociales, como la masacre israelí en Gaza, Cisjordania y el Líbano, y que puede desaparecer de un plumazo por denuncias o por línea editorial, como hemos visto en tantas ocasiones.

El mismísimo Google ha empezado recientemente a ofrecer la opción de ver versiones antiguas de una página web a través de la Wayback Machine. Es decir, el gigante de las búsquedas se apoya en el pequeño equipo de esta herramienta: no hay mejor ejemplo que explique su inmensa utilidad.

Sin embargo, el funcionamiento de esta herramienta de rastreo cada vez se ve más entorpecida, no sólo por los ataques desde los defensores a ultranza del copyright o los fallos de seguridad, sino por la creciente cantidad de información generada, e incluso por las más que previsibles trabas legales al rastreo masivo –medida pensada para limitar ciertas actividades de la inteligencia artificial– y que podría llegar a meter en el mismo saco a Internet Archive, a pesar de que es un "actor de buena fe".

Un repositorio así es único y, sin embargo, se mantiene gracias a pequeñas donaciones y al trabajo de unas pocas personas. Su pérdida sería un drama y supondría la desaparición de un importante bastión de la memoria colectiva mundial.

¿Te ha resultado interesante esta noticia?

Etiquetas

Público

Internet Archive La gran biblioteca de internet, en la 'UCI'

Ciberataques, la IA y los derechos de autor amenazan la existencia de Internet Archive, historia viva de la web.

Una faena para la Wikipedia