Mobirise

Publicación semestral • ISSN 2683-2968 • Junio 2022 • Número de revista 5

3/4

Implementación

A partir de la versión 17.11.0pre1 (Jun 22, 2017) Slurm agregó soporte para clusters confederados, esta nueva funcionalidad resuelve muchos de los problemas que se identificaron cuando se trató de integrar clusters de prueba en una grid usando Globus, entre ellos, el de ofrecer una interfaz única para que los usuarios pudieran acceder a los recursos de los tres clusters sin tener que aprender a usar tres formas de trabajo distintas.

La infraestructura de cada uno de los tres centros de supercómputo que conforman LANCAD es distinta y única. Por lo tanto, la solución para la integración de los recursos de los tres centros debía tomar en cuenta estas diferencias y ser flexible para realizar cambios a la infraestructura integrada en la grid de manera independiente.

Desde el punto de vista de un usuario con experiencia en el uso de Slurm, empezar a utilizar un cluster confederado, solamente requiere aprender una nueva opción y agregarla al conjunto de comandos básicos de Slurm.

En la federación de clusters con Slurm, además de permitir el envío de trabajos a otros clusters, se unifica la información de estos trabajos en una única base de datos. Lo que posibilita hacer consultas de los estados de las tareas en los tres clusters a la vez, manteniendo identificadores de trabajo únicos entre ellos.

En cuanto a los administradores de los clusters, el esquema de federación de Slurm mantiene políticas de asignación de recursos propias para cada cluster y admite dar de baja o agregar servidores de cómputo sin interrumpir el funcionamiento del resto de la federación.

Para crear una federación es necesario contar con una conexión entre los clusters, la cual puede realizarse a través de internet. Pero al tratarse de clusters de alto desempeño, la conexión debe ser de una muy alta velocidad y de baja latencia. En LANCAD, los tres centros que lo conforman se encuentran interconectados con fibra óptica cuya velocidad es de 10 Gigabits por segundo. El reto de conectar los clusters a esta red no solamente se encuentra en la conexión física, sino también en la creación de una red lógica adicional compartida para transmitir la información utilizada por la federación, ya que las redes locales en cada centro son diferentes como se mencionó anteriormente. Así, uno de los principales problemas que se encontraron al implementar el Slurm confederado, fue que al someter trabajos a los clusters interconectados con la fibra óptica del LANCAD, los equipos perdían la correspondencia de la comunicación entre los nodos de cálculo (los servidores que de manera efectiva realizan las tareas de cómputo), y los nodos de los otros slurm-maestros ubicados en los otros dos sitios, pues faltaba establecer la conexión entre los nodos de cálculo y todos los slurm-maestros. Lo primero que se intentó para resolver el problema fue configurar reglas en las tablas de dirección IP, pero no funcionó del todo. Posteriormente, se decidió probar el modo puente, es decir, configurar un nodo en cada cluster que cuente con comunicación tanto con la red interna, como con la red externa. Dicho nodo retransmite las peticiones entre las redes para que los tres clusters puedan comunicarse entre sí. Esta propuesta permitió avanzar y lograr la comunicación de los nodos de cálculo hacia cualquiera de los otros nodos slurm-maestros para tener la traza del proceso de los trabajos sometidos de un sitio hacia los nodos de cálculo de los otros. Lo anterior también implicó acordar políticas de seguridad para los segmentos y la jerarquía de la red, tras lo cual, se logró con éxito integrar los tres clusters de prueba como una federación manejada con Slurm. Finalmente, se instalaron aplicaciones de software libre (Quantum ESPRESSO, GROMACS y NWChem) en cada de ellos de prueba para que un usuario probara ejecutarlos en el cluster de su elección, lo cual pudo realizarse desde su directorio hogar de forma transparente.

La implementación de una federación de clusters de prueba interconectados por medio de la fibra óptica del LANCAD, ha permitido evaluar los pros y los contras de un escenario en el cual los equipos instalados en cada uno de los nodos que conforman LANCAD estén integrados, lo cual pondría a disposición de los usuarios una gama más amplia de equipos en un ambiente de trabajo unificado.  

Fecha de recepción: 2 de febrero de 2022
Fecha de publicación: junio de 2022

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2022, Año 3, No. 5, junio 2022, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Editor responsable: Mtra. Lizbeth Luna González. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, junio de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2022.

Built with Mobirise - More