SIE FINALIZA CON ÉXITO LA INSTALACIÓN DEL CLUSTER DE GPUs DEL INSTITUTO DE QUÍMICA COMPUTACIONAL Y CATÁLISIS DE LA UNIVERSITAT DE GIRONA, BAUTIZADO COMO GALATEA
Sistemas Informáticos Europeos, ha finalizado con éxito la instalación del Clúster de GPUs para el Instituto de Química Computacional y catálisis de la Universidad de Girona.
Este clúster era un gran reto para nuestra empresa, dado que necesitábamos garantizar la redundancia de los servidores de gestión, monitorización y colas, para evitar un único punto de fallo. Por eso, elegimos los plataformas Intel R1304WT2GSR, en las que confiamos por la fiabilidad de sus componentes, la redundancia de fuentes de alimentación extraíbles en caliente y la velocidad de los discos SSD, para garantizar una solución fiable.
Preguntamos a David Ramírez, HPC Systems & Integrator Manager en SIE
Cuáles eran las necesidades del cliente?
Tener claramente unificadas y dimensionadas tres tipos de redes para el entorno de cálculo de altas prestaciones (HPC). Dividiendo las redes de control (gestión), almacenamiento y bmc (ipmi 2.0 control remoto), las dos primeras a Gigabit y la IPMI a 100 Mb/s. Además era fundamental elegir equipos fiables, dado que se trata de un clúster de HPC, con 2 servidores redundantes. Se confio en plataformas de la propia Intel para los servidores principales, que aportan alta disponibilidad (HA), con servicios activo-pasivo sobre una solución de virtualización Citrix Xen Server.
¿Qué alternativas se platearon?
En el concurso se plantearon redes a Gigabit, 10G e Infiniband. Sin embargo para el Instituto de Química Computacional de la UdG, lo más importante era dotar al sistema de una red económica, para que la mayor parte del presupuesto fuera a aportar potencia de cálculo de GPU. Gracias a esta solución de TPLINK, se ha podido configurar un entorno HPC con una capacidad de computación de 1.584 Tflops en total y 72 Tflops por nodo, con un total de 2 Pflops si contamos los procesadores Intel Xeon Broadwell E5-2620 V4 que incorpora.
SIE deja configurado un repositorio común en BeeGFS, de más de 200 TB, donde se almacenan todos los cálculos. Esta solución permitirá al Instituto de Química Computacional de la Universitat de Girona, afrontar nuevas investigaciones.
El IQCC, gracias a estos cálculos, podrá mejorar y acortar los tiempos en procesos, que son fundamentales en la creación de nuevos fármacos y materiales más resistentes y menos contaminantes. Esto es clave para el sector industrial y farmacéutico en su desarrollo y coloca a institutos como este en la vanguardia internacional de la Ciencia.
Ventajas del uso de la tecnología del proyecto ahora que está finalizado.
El proyecto ya está finalizado y en producción. Los switch de gigabit, permiten gracias a su gestionabilidad, hacer bounding entre los nodos del clúster; el switch de 100 Mb/s enracable, ofrece una solución muy económica para la conectividad de KVM over LAN y gestión remota, que no tiene más requerimiento, pero que es fundamental en el mantenimiento de los equipos (integrada en una consola Nagios); para terminar el enrutador, da alta disponibilidad entre wan con ancho gigabit, permitiendo conectar la red LAN externa y la IPMI, con una único puerto de la Universidad y así reducir la carga de los servidores redundantes.
¿Que aporta la solución de Ladon OS frente a soluciones como Rocks?
El hecho de usar nuestro desarrollo Ladón OS 7.2 v8, nos garantiza un ecosistema estable de herramientas Open Source, que permiten gestionar, monitorizar y supervisar todo el clúster de forma conjunta y centralizada.
Por establecer la diferencia con Rocks, Ladon OS es un puzzle y no un sistema monolítico. Es un ecosistema donde las herramientas conviven de forma conjunta, pero que puede quitar o agregar componentes, en función de parámetros como el tamaño del clúster o la complejidad del sistema a utilizar. En Rocks, “cargamos” con herramientas que no necesitamos, lo que lo hace mucho más pesado y difícil de actualizar.
La colaboración de varias Universidades e institutos, que ofrecen sus herramientas como CLUES (CLuster Energy Saving), permite que el sistema evolucione muy rápido y pueda estar al día. Esto puede llegar a suponer una diferencia de entre un 20% y 30% en el rendimiento de un clúster.
Ladón OS integra herramientas como MK check (sobre Nagios), Ganglia, Ansible, etc.Además, se ha ayudado al cliente a instalar aplicaciones como Amber 16 o Gromacs sobre CUDA 8, desplegandolas en todo el cluster de forma automática gracias a EasyBuild.El Instituto de Química Computacional de la Universitat de Girona, investiga en campos como la mejora y acortar los tiempos en procesos que son fundamentales en la creación de nuevos fármacos y materiales más resistentes y menos contaminantes. Esto sitúa al mencionado Instituto “a la vanguardia internacional de la ciencia”
Este clúster de GPU basado en procesadores Intel Xeon, es uno de los más potentes instalados en España hasta ahora y uno de los 10 más grandes de Europa, con esta tecnología, que en total aporta 2 Pflops gracias a la nueva tecnología NVDIA Pascal con CUDA 8.
Muchos medios como Sonitron, Electro-Imegen y Redes-Telecom se hacen eco de la noticia.