Mobirise

Publicación semestral • ISSN 2683-2968 • Junio 2022 • Número de revista 5

Resumen

El Laboratorio Nacional de Cómputo de Alto Desempeño (LANCAD) es un consorcio conformado por tres instituciones con amplia experiencia en supercómputo: el Centro de Investigación y Estudios Avanzados del IPN (Cinvestav), la Universidad Autónoma Metropolitana (UAM) y la Universidad Nacional Autónoma de México (UNAM). LANCAD se creó con el objetivo de apoyar la investigación científica nacional proporcionando servicios de cómputo de alto desempeño (CAD). Con la finalidad de explorar la integración de equipos de cómputo instalados en cada uno de los centros, el grupo técnico del LANCAD desarrolló un prototipo de cluster (1) confederado para que los usuarios ejecuten procesos indistintamente en cualquiera de los clusters CAD que lo conforman en un ambiente estandarizado. El presente artículo resume las experiencias que generó la implementación de la federación de clusters mediante el uso de Slurm Federated Scheduling, así como los retos que surgieron para su construcción, validación y pruebas.

Palabras clave:
Cómputo de Alto Desempeño, Cluster, Federación de Clusters, LANCAD, SLURM

(1) cluster es un conjunto de computadoras independientes interconectadas entre sí de forma eficiente, que funcionan como un solo recurso computacional para procesamiento paralelo o distribuido. A cada uno de los elementos del cluster se le conoce como nodo [3].

Abstract

Setting up a confederated cluster for HPC with SLURM

The National High Performance Computing Laboratory (LANCAD from the spanish Laboratorio Nacional de Cómputo de Alto Desempeño) is a consortium of three institutions with large experience in supercomputing: the Center for Research and Advanced Studies of the IPN (Cinvestav from the spanish Centro de Investigaciones y Estudios Avanzados del IPN), the Autonomous Metropolitan University (UAM, from the spanish Universidad Autónoma Metropolitana) and the National Autonomous University of Mexico (UNAM, from the spanish Universidad Nacional Autónoma de México). LANCAD was created with the aim for supporting national scientific research in need of high-performance computing (HPC) services. In order to explore the integration of computer hardware installed at each of the centers, the LANCAD technical group developed a prototype of a cluster confederation so that their users can execute processes indistinctly in any of the HPC clusters of LANCAD in a standardized environment. This article summarizes the experiences on the implementation of such prototype using Slurm Federated Scheduling, as well as the challenges that have arisen in its construction, validation and testing.

Keywords:
High Performance Computing, cluter, federation of clusters, LANCAD, SLURM, high speed network.

Fecha de recepción: 2 de febrero de 2022
Fecha de publicación: junio de 2022

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2022, Año 3, No. 5, junio 2022, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Editor responsable: Mtra. Lizbeth Luna González. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, junio de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2022.

Web page was built with Mobirise