Conoce la tecnología XMX (Xe Matrix eXtensions)

Intel tiene una nueva tecnología en sus GPUs denominada XMX, que son las siglas del Xe Matrix eXtensions. Pero ¿sabías qué es exactamente? ¿para qué sirve? ¿qué puede aportarte en el día a día de uso de estos chips? Aquí resolveremos todas las dudas que tengas.

Índice de contenidos

¿Qué son los Tensor Cores?

Antes de empezar con Intel XMX, deberías saber qué es el Tensor Core. Se trata de una unidad de procesamiento especializada, diseñada específicamente para acelerar las operaciones de álgebra lineal que son fundamentales para el aprendizaje profundo. Estos núcleos se encuentran integrados en las GPUs, como las NVIDIA, y también en las nuevas Intel Arc, y están optimizados para realizar operaciones de multiplicación y acumulación de matrices de manera extremadamente eficiente.

Los Tensor Cores están diseñados para acelerar las operaciones de tensor, que son la base de muchos algoritmos de aprendizaje profundo. Esto es crucial para aplicaciones de entrenamiento neuronal, inferencia, etc. Estas GPUs los usan especialmente para los gráficos, como la mejora de la calidad gráfica para ejecutar, por ejemplo, NVIDIA DLSS o Intel Xess.

Para procesar este tipo de cargas de forma rápida y eficiente, en lugar de realizar estas operaciones una a una, los Tensor Cores pueden procesar múltiples elementos de la matriz simultáneamente, lo que resulta en un aumento significativo del rendimiento frente a como lo harían otras unidades convencionales como la ALU. Además, están optimizados para precisión mixta, y son altamente paralelas.

Puedes estar pensando que un Tensor se puede parecer a una TPU o NPU, y lo cierto es que tienes razón. Sin embargo, mientras la TPU y NPU se usan para tareas más genéricas de IA, los Tensor Cores de las GPUs se centran en los gráficos.

Te recomiendo leer la guía sobre las mejores tarjetas gráficas del mercado

Instrucciones de multiplicación escalar y acumulación en matrices sistólicas 2D

He mencionado antes en el apartado de los Tensors que operaban sobre este tipo de funciones, es decir, sobre matrices sistólicas 2D. Por tanto, para entender bien Intel XMX, tienes que conocer qué son este tipo de operaciones matemáticas. Se trata de arquitecturas datos especializadas que han ganado popularidad en los últimos años debido a su eficiencia en la ejecución de operaciones matriciales tan demandadas por los algoritmos de IA.

Una de las operaciones fundamentales que estas matrices aceleran es la multiplicación escalar y acumulación (MAC), que son las siglas de multiply–accumulate, también llamado multiply-add (MAD). Básicamente lo que se hace es realizar una multiplicación entre dos números y luego sumar el resultado a un acumulador, un registro que guardaba un dato previo. Esto sirve para cálculos matriciales, multiplicando un escalar por un elemento de una matriz y luego sumarlo al valor acumulado de una ubicación específica de la matriz o array.

Las matrices sistólicas 2D (también existen 3D, donde se superponen varias 2D) son arquitecturas de procesamiento especializadas que están diseñadas para ejecutar operaciones matriciales de manera eficiente. Estas matrices se componen de una cuadrícula de procesadores elementales, cada uno de los cuales realiza una operación simple tipo MAC sobre los datos que fluyen a través de la matriz.

La importancia de este tipo de operaciones es elementales para la convolución, una función común en el procesamiento de imágenes y señales, y para otras aplicaciones relacionadas con las redes neuronales.

Un ejemplo de este tipo de operación puede ser una matriz de tamaño 3×3, es decir, tres filas y tres columnas. Si se quiere calcular el elemento C[1, 1], se carga los elementos A[1, 0], A[1, 1] y A[1, 2] en la primera fila de la matriz sistólica. Luego se cargan los B[0, 1], B[1, 1] y B[2, 1] en la primera columna de la matriz sistólica. Cada celda de la matriz sistólica realiza la operación de multiplicación escalar y acumulación con los datos que tiene disponibles. El resultado final se almacena en la celda C[1, 1]. Este proceso se repite para calcular los demás elementos de la matriz de salida…

Puedes leer más información y noticias sobre las Intel Xe

¿Qué es Intel XMX?

Ahora que ya sabes qué es un Tensor core y qué son ese tipo de operaciones o arquitecturas para procesamiento de datos y cálculos MAC, lo siguiente es describir qué es Intel XMX, ya que con lo anterior podrás entenderlo mejor.

La creciente popularidad de la inteligencia artificial (IA) ha llevado a una demanda urgente por soluciones computacionales más eficientes. Los modelos de IA, especialmente los de aprendizaje profundo, suelen ser grandes y complejos, lo que requiere una gran cantidad de recursos de cálculo, especialmente por los de precisión menor como los INT8, INT16, FP8, FP16, o BP16 (Brain Floating Point 16, un tipo de coma flotante de 16-bit pensado para la IA). Y es por eso que Intel ha agregado Tensor cores a sus GPUs Arc, y la tecnología Intel XMX.

Para aprovechar al máximo los beneficios de los datos de baja precisión, las unidades Xe Matrix Xtension son las unidades de cálculo implementadas en hardware para los formatos de datos de baja precisión más comunes.

Intel XMX ofrece instrucciones especializadas para realizar operaciones matriciales con estos formatos de datos de baja precisión, como las MAC. Esto permite acelerar significativamente el entrenamiento y la inferencia de modelos de IA, sin comprometer demasiado la precisión.

Para aprovechar las ventajas de Intel XMX, se puede interactuar con estas extensiones a diferentes niveles, como por ejemplo desde frameworks como pueden ser el famoso TensorFlow, PyTorch, etc. También tenemos bibliotecas o APIs dedicadas como es el caso de oneDNN y oneMKL, así como Kernels SYCL. Así los desarrolladores pueden sacarle partido a estos núcleos para IA de las Intel Arc…

Si tienes alguna duda o aportación, no dudes en dejarla en tus comentarios…

Isaac18 septiembre, 2024

4 minutos de lectura aproximada.