3/5
Los archivos se han erigido en espacios vinculados al poder político y al conocimiento de toda sociedad. Preservan el pensamiento, las creaciones y los hechos que dan cuenta del acontecer de la sociedad. En la era de la información digital, los archivos han adquirido notoriedad por el acceso abierto y la transparencia en la información pública, cualidades esenciales de toda sociedad democrática.
Aun cuando en muchos casos subsiste el rezago en la digitalización de las colecciones analógicas, cada día se incrementa el volumen de documentos de origen digital, cuya preservación es una tarea inaplazable y compleja. Aplicar procesos documentales a grandes volúmenes de información es una tarea titánica. Por ello, desde hace más de una década, la IA ha despertado el interés de los archivistas para mejorar procesos como la catalogación, así como para recuperar contenidos de manera más eficiente.
De todos los tipos de archivos, destacan los que preservan contenidos sonoros y audiovisuales, con los cuales se han iniciado proyectos que ponen a prueba las posibilidades de la IA. Un ejemplo de ello es la experiencia del American Archive of Public Broadcasting (AAPB) de Estados Unidos, donde se han probado las posibilidades de usar el aprendizaje automático, en inglés Machine Learning (ML), y la inteligencia artificial. [3] Otro caso es la iniciativa de Radio y Televisión Española (RTVE) para la generación automática de metadatos, a través de la transcripción automática de texto y segmentación de contenidos a fin de dar visibilidad a los materiales de archivo. [4] Asimismo, conviene destacar el desarrollo de AI4 Media consorcio de investigación financiado por la Unión Europea y donde participan universidades, centros de investigación, archivos y medios públicos.
El primer intento por utilizar IA en los archivos sonoros y audiovisuales en México inició hace una década. La doctora Mireya Saraí García, del Centro de Investigación y Desarrollo de Tecnología Digital del Instituto Politécnico Nacional, lideró MEX CULTURE, un proyecto de investigación aplicada, encaminado a probar herramientas de inteligencia artificial para la recuperación de contenidos guardados en archivos sonoros. [5] Este propósito fue complejo porque hace una década apenas habían comenzado las tareas de digitalización. Por ello, la preservación de documentos de origen digital era una práctica desconocida. No había suficientes contenidos para aplicar y probar la IA en México. Además, para los responsables de los archivos la idea de aplicar algoritmos en una copia de los contenidos digitales era incomprensible y suponía un riesgo.
Así, las primeras aplicaciones de inteligencia artificial en archivos, promovidas por investigadores mexicanos, florecieron en Colombia. En Radio y Televisión Nacional de Colombia se creó el Laboratorio de Inteligencia Artificial de RTVC, impulsado por la maestra Dora Braussin. Desde entonces esta iniciativa es un referente en América Latina.
En 2019, el Instituto de Investigaciones Bibliotecológicas y de Información de la UNAM, en colaboración con la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, organizó el Congreso Internacional de Archivos Digitales, con el tema Inteligencia Artificial y Big Data. En este Congreso se presentaron algunas de las experiencias más relevantes de Europa y Estados Unidos en la aplicación de la IA en archivos audiovisuales.
Por la relevancia del tema, se emprendieron investigaciones en el ámbito de las Ciencias Sociales y las Humanidades en la UNAM. Entre otras, conviene señalar que inició la primera tesis de doctorado sobre el uso de la IA en archivos sonoros, a cargo de la maestra Georgina Sanabria Medina. En 2020 se creó, por iniciativa del doctor Pedro Salazar Ugarte, la Línea de Investigación en Derecho e Inteligencia Artificial (LIDIA) del Instituto de Investigaciones Jurídicas de la UNAM. En marzo de 2023, LIDIA y el Instituto Nacional de Acceso a la Información (INAI), organizaron el foro “Retos del uso de Inteligencia Artificial en la actividad archivística de México”.
En la actualidad, la IA y los archivos son un ámbito de interés científico y profesional.
Las derivaciones
Para garantizar la permanencia de los objetos digitales y los metadatos, la preservación digital no debe ser interrumpida. Los datos se almacenan en archivos o centros de datos, a través de los cuales se tiene acceso a la información de un determinado ámbito o negocio. Un ejemplo de ello son los servicios de información que ofrecen Alexa y Siri como asistentes virtuales. Cuando se formulan consultas, entra en operación un complejo y vasto sistema de aplicaciones informáticas, que procesan, en cuestión de segundos, millones de datos para arrojar de manera inmediata la información solicitada. En este proceso intervienen dos términos: el big data y la inteligencia artificial. El Big data procesa y recupera grandes volúmenes de información, gracias al uso de la inteligencia artificial. [6] El empleo de la IA en el procesamiento de grandes volúmenes de datos para la preservación digital, tiene al menos tres consecuencias o costos: medioambiental, patrimonial y social, que a continuación se desarrollan.
Medioambiental
Los centros de datos son instalaciones para la conservación y la gestión de sistemas informáticos y componentes asociados, como telecomunicaciones y sistemas de almacenamiento. Cuentan con un entorno seguro y una temperatura controlada. [7] En concordancia con la definición anterior, los archivos digitales constituyen un tipo de centro de datos.
Los centros de datos son parte de la sociedad contemporánea, porque preservan grandes volúmenes de información digital, tarea para la cual se requiere del uso de energía eléctrica de manera ininterrumpida, no sólo para la conservación a través del almacenamiento de los datos, sino también para llevar a cabo los procesos de búsqueda y recuperación de información. En otros términos, que la búsqueda de información desde cualquier dispositivo conectado a Internet genera un impacto en el medio ambiente.
Los centros de datos dejan una huella en el medio ambiente porque consumen energía y agua constantemente. Utilizan entre 10 y 50 veces más energía que una oficina. En 2021, emplearon el 1% de la demanda mundial de energía y millones de galones de agua para enfriar los sistemas de almacenamiento y generar energía. [7]
Estudios recientes señalan que, para 2040, el sector de las tecnologías de la información emitirá el 14% de las emisiones de carbono y que la demanda de energía en los centros de datos se multiplicará por 15 en 2030. [8] Este incremento está asociado al uso de la inteligencia artificial, porque para el procesamiento de grandes volúmenes de datos se emplean arquitecturas basadas en redes neuronales, con millones de parámetros que se deben entrenar. [8]
Las empresas que mantienen los grandes centros de datos no proporcionan información sobre la huella de carbono, el uso de agua para enfriar los sistemas de almacenamiento y la producción de basura tecnológica que se genera al entrar en desuso la tecnología cada determinado tiempo. [9] Diseñan planes para reducir el impacto en el medio ambiente y afirman que contribuirán a que la información proporcionada, mediante los centros de datos, ayude a disminuir las emisiones mundiales de gases de efecto invernadero, entre un 6 y 12%, en 2030. [7]
No obstante, las estimaciones actuales proyectan que el impacto ambiental de las tecnologías de la información se acrecentaría con el uso de la IA, al ser una herramienta utilizada por millones de personas en el mundo y porque, precisamente, durante el proceso de entrenamiento para perfeccionar su desempeño, requiere de mejores procesadores de información. [8]
Patrimonial
Para garantizar la preservación de grandes volúmenes de datos, se requieren sistemas robustos de almacenamiento digital que emplean la nube como una solución. La preservación en la nube es una decisión de los responsables de los archivos, que tiene implicaciones patrimoniales y se relaciona con la noción de la soberanía digital.
El cómputo en la nube se refiere al uso de servidores, ubicados en lugares remotos, que a través de Internet almacenan, gestionan y procesan datos, en lugar de utilizar un servidor local o personal. Con esta infraestructura, las aplicaciones compartidas a través de Internet pueden ser utilizadas por múltiples usuarios. Los servicios de cómputo en la nube pueden ser proporcionados por proveedores externos, que ofrecen y mantienen el software y el hardware necesarios [7] para la preservación de grandes volúmenes de información digital.
Esta solución puede ser atractiva porque resuelve de manera práctica la gestión y la conservación de datos en un archivo. Sin embargo, se observa cada vez más resistencia a la dependencia de empresas como Amazon, Google o Microsoft en materia de almacenamiento y gestión de grandes volúmenes de datos. Este tema cobró relevancia en la agenda política de Europa desde 2019. [10]
El Parlamento Europeo reconoció que los datos y la inteligencia artificial son elementos para la innovación y para resolver problemas sociales, desde la salud y la agricultura, hasta la seguridad. Por ello, asignaron 20 millones de euros anuales para el desarrollo de la inteligencia artificial. [10] Con esta determinación se reconoció la importancia de invertir para crear soluciones de almacenamiento digital que no vulneren la soberanía digital. La experiencia europea debería motivar la inclusión del tema en la agenda política de todas las naciones, para sentar las bases de la soberanía digital y garantizar la protección del patrimonio.
Social
La manipulación en el procesamiento de grandes volúmenes de datos conlleva riesgos sociales. A los patrones de entrenamiento de la IA se pueden trasladar los prejuicios y las discriminaciones que ya existen en la sociedad, por razón de sexo, género, religión, opiniones políticas, discapacidad, orientación sexual y edad, entre otras. [11] Esto supone imponer la visión de una persona o de un grupo de personas sobre los modos de interpretación y recuperación de un conjunto de datos.
La preocupación por el uso indebido de la IA motivó a investigadores y tecnólogos a firmar una carta para advertir sobre los riesgos que para la sociedad y la humanidad acarrearía el desarrollo sin control de la IA. [12] Se señala en la misiva que el desarrollo de la tecnología está fuera de control y podría crear mentes digitales cada vez más poderosas, que ni siquiera sus creadores podrían entender o predecir. En consecuencia, se formuló un llamado para detener, al menos seis meses, el desarrollo de la tecnología, a fin de poner en marcha protocolos de seguridad y crear un marco regulatorio en el que se involucren los legisladores de cada país para la supervisión y el seguimiento de los grandes sistemas de información que emplean IA. [12]
Las posibilidades de manipulación y uso indebido de la IA en grandes volúmenes de datos dejan al descubierto el costo social. El tratamiento de la información puede incidir en la toma de decisiones de la sociedad e incluso vulnerar la democracia. [6]
La discusión de la IA en la preservación digital debe basarse en la transparencia del procesamiento de la información, la mitigación de la discriminación de cualquier tipo y la garantía de que no se vulneren los derechos individuales en torno a la posible toma de decisiones automatizadas. El uso erróneo de la tecnología afectaría la confianza y la credibilidad en el archivo. La IA es una herramienta que puede proteger y crear modos creativos, que faciliten el acceso sencillo y más amplio a los datos de los bienes culturales digitales que forman parte del patrimonio digital. [13]
Fecha de recepción: marzo 30, 2023
Fecha de publicación: febrero, 2024