LUMI es una de las supercomputadoras más conocidas y potentes del ámbito del HPC. Se encuentra liderando entre las primeras de la lista Top 500. Y todo gracias a la potencia que generarán sus GPUs AMD Instinct y las CPUS AMD EPYC. Una ayuda que le ha valido para ser la máquina más potente de Europa por el momento, y uno de los más eficientes a nivel energético.
¿Qué es LUMI?
LUMI son las siglas de Large Unified Modern Infraestructure, y su nombre en finlandés significa «nieve». LUMI es una supercomputadora de petaescala localizada en el centro CSC de la ciudad Kajaani, en Finlandia. El centro de procesamiento de datos tiene unas dimensiones de 150 metros cuadrados, y en enero de 2023 se consolidó como el más potente de Europa.
El sistema completo cuenta con 362496 núcleos de procesamiento, capaces de llegar a más de 375 PetaFLOPS y con un pico teórico de rendimiento de hasta 550 PFLOPS.
Recuerda que HPE compró a la conocida compañía Cray, uno de los líderes del sector HPC.
Este sistema está diseñado por HPE (Hewlett Packard Enterprise), usando su producto HPE Cray EX de nueva generación, que se compone de AMD EPYC de 64 núcleos a 2Ghz (3ª Gen) y GPUs AMD Radeon Instinct MI250X. Concretamente tiene un total de 10240 de GPUs y 20480 chips GCD.
La organización de la máquina es un tanto peculiar, ya que no es igual a otras. En el caso de LUMI, tenemos 2560 nodos de procesamiento con CPUs EPYC, cada nodo con cuatro AMD Instinct MI250x como acelerador . Esto da un total de 10240 GPUs
En cuanto a la memoria RAM que acompaña a estas unidades, LUMI cuenta nada menos que con 1.75 PetaBytes. Y el sistema de almacenamiento incluye una partición de 7 PetaBytes de unidades SSD, combinado con 80 PetaBytes de unidades HDD tradicionales. Ambas emplean el sistema de archivos (FS) Lustre, mientras que también agregan a esto un servicio de 30 PetaBytes de gestión de datos basado en Ceph. Esto significa un total de 117 Petabytes de almacenamiento, y un ancho de banda de E/S de 2 Terabytes por segundo.
Para interconectarlo todo y que los datos puedan ir desde los distintos racks y demás, se emplea una red de alta velocidad Slingshot-11. Una tecnología creada por la propia HPE y que permite enviar más de 1200 millones de paquetes por segundo (600000000 paquetes por segundo por dirección) y por cada puerto. Además, es compatible con velocidades de enlace de 200 GB/s.
Una joya que tiene un consumo de 8.5 MW de potencia, a pesar de ser bastante eficiente energéticamente. Y a esta enorme «factura de la luz» hay que agregar que costó nada menos que 144.500.000€.
Por último, el sistema operativo empleado es Linux, concretamente HPE Cray OS. Este paquete es un sistema operativo con conjuntos de software para computación de alto rendimiento que ha sido diseñado especialmente para ejecutar cargas de trabajo grandes y complejas. El software en sí se basa en el estándar SUSE Enterprise Linux, pero HPE ha mejorado su eficacia, fiabilidad, y gestión de apps.
Lista Top500
En la última revisión de la lista Top500, la de junio de 2023, LUMI ocupaba el puesto número 3 de las supercomputadoras más potentes del mundo. Justo tras la americana Frontier y la japonesa Fugaku.
AMD Instinct y EPYC como motor de LUMI para acelerar la IA a nivel lingüístico
Y para mover toda esta máquina, LUMI cuenta con una serie de GPUs AMD Insticnt y CPUs AMD EPYC. Con este hardware se permite a TurkuNLP Group (uno de los grupos que están haciendo uso de las capacidades de cómputo de LUMI) crear nuevos modelos de análisis para diversos campos en un tiempo récord. Una poderosa herramienta de investigación que permitirá acelerar las tareas de inteligencia artificial frente a la generación anterior de supercomputadoras.
«La capacidad de computación y la posibilidad de escalar aún más con LUMI permite a nuestros clientes ampliar los límites del Machine Learning/AI».
Väinö Hatanpää, especialista en Machine Learning del CSC
De hecho, con las máquinas anteriores se pudía preentrenar un modelo lingüístico de mil millones de parámetros en medio año. Con LUMI solo se tardan dos semanas en procesar unos 40.000 millones de tokens. Un tiempo realmente impresionante para esta máquina, y una gran ayuda para que Europa pueda seguir haciendo progresos en el campo de la IA frente a competidores como China o Estados Unidos.
Características técnicas de la CPU AMD de LUMI
AMD EPYC 7763 | |
Microarquitectura | Zen 3 (Milan) |
Litografía | 7 nm FinFET TSMC / cIO de 12nm |
Socket | SP3 (FC-LGA 4094) |
Núcleos/hilos | 64 núcleos / 128 hilos con SMT
8xCCDs con 8 núcleos cada uno |
Frecuencia de reloj | 2.45 Ghz base
Hasta 3.5 Ghz Turbo Boost |
Desbloqueado | No |
Caché | L3: 256 MB (compartida)
L2: 512 KB por núcleo L1: 64KB/núcleo |
TDP | 280W base
cTDP 225W |
TjMax | 95ºC |
Disipador incluido | No |
CPU I/O | DDR4-3200 Mhz OctaChannel y ECC
128 carriles PCIe 4.0 |
Características técnicas de GPU AMD de LUMI
Modelo | MI250X |
Arquitectura | CDNA 2 |
Proceso | 6nm TSMC |
Compute Units | 2×110 |
Matrix Cores | 2×440 |
Frecuencia Turbo | 1.7 Ghz |
FP64 Vector | 47.9 TFLOPS |
FP32 Vector | 47.9 TFLOPS |
FP64 Matrix | 95.7 TFLOPS |
FP32 Matrix | 95.7 TFLOPS |
FP16 Matrix | 383 TFLOPS |
INT8 Matrix | 383 TOPS |
Frecuencia de memoria VRAM | 3.2 Gbps tipo HBM2E |
Ancho de bus de memoria | 8192 bits |
Ancho de Banda | 3.2TB/s |
Capacidad VRAM | 128GB |
ECC | Sí |
Links Infinity Fabric | 8 |
Coherencia de CPU | Sí |
TDP | 560W |
Transistores | 2×29.100M |
No olvides comentar…