Tarjetas gráficas

RDNA 4 Arquitectura: Te explico todas las novedades de la RX 9070XT y 9070XT

Las nuevas GPUs AMD Radeon RX 9000 Series, como la RX 9070 XT y RX 9070, así como futuras APUs, se basan en la arquitectura RDNA 4, la cuarta generación de esta arquitectura que ha permitido a AMD situarse cerca de NVIDIA. Por eso, deberías conocer cuáles son las novedades arquitectónicas de este diseño y qué puede aportar.

Índice de contenidos

Toggle

Especificaciones: ¿Menos es más?

Estas son las especificaciones de esta nueva arquitectura, no obstante, hay que tener en cuenta que en RDNA 3 vimos toda la serie completa, RX 7000, es decir, la 7900, 7800, 7700 y 7600. En cambio, por ahora, AMD no ha mostrado más que el modelo RX 9070 XT y RX 9070, unos SKUs que parecen apuntar a gamas más bajas, de ahí que veamos algunas características mermadas, ya que comparamos el chip Navi 31 (RX 7900 XTX) vs Navi 48 (RX 9070 XT), pero vendrán más de la serie 9000…

Arquitectura	RDNA 3 (SKU Radeon RX 7900 XTX)	RDNA 4 (SKU Radeon RX 9070 XT)
Nombre del chip de la GPU	Navi 31	Navi 48
Foundry y proceso de fabricación	TSMC 5nm (N5) con transistores FinFET	TSMC 4nm (N4C) con transistores FinFET
Número de transistores y densidad	58.000 millones y 188.3M/mm²	53.900 millones y 151.0M / mm²
Tamaño completo del chipset	533 mm² chiplets (MCM)	–
Tamaño del die	308 mm²	357 mm² monolítico
Tamaño del MCD	37.5 mm² x 6	–
Número de unidades de cómputo	96 Compute Units (CUs) 6144 Shading Units 384 TMUs 192 ROPs 96 RT Cores	64 Compute Units (CUs) 4096 Shading Units 256 TMUs 128 ROPs 64 RT Cores 128 Tensor Cores
Memoria caché	L3 de 96 MB L2 de 6 MB L1 de 256 KB por array L0 de 64 KB por WGP	L0 de 32 KB por WGP L1 de 128 KB por array L2 de 8 MB L3 de 64 MB
Rendimiento teórico	481 GPixel/s 961.9 GTexel/s 123.1 TFLOPS (FP16) 61.56 TFLOPS (FP32) 3,848 FLOPS (FP64)	380.2 GPixel/s 760.3 GTexel/s 97.32 TFLOPS (FP16) 48.66 TFLOPS (FP32) 1.521 TFLOPS (FP64)
Frecuencia de reloj base	1.900 Mhz	1660 Mhz
Shader Clock	2.300 Mhz	–
Frecuencia de juego	2.300 Mhz	2400 Mhz
Boost	2.505 Mhz	2970 Mhz
Reloj de la memoria	2500 Mhz (20 Gbps)	2518 MHz (20.1 Gbps)
Memoria VRAM	Hasta 24 GB GDDR6	Hasta 16 GB GDDR6
Ancho de banda	384-bit – 960 GB/s	256-bit – 644.6 GB/s
Puertos	1x HDMI 2.1a, 2x DisplayPort 2.1, 1x USB-C	2x HDMI 2.1b, 2x DisplayPort 2.1a
TDP	355W (necesita conector 2x 8-pin)	304 W (necesita conector 3x 8-pin)
APIs gráficas	DirectX 12 Ultimate, OpenGL 4.6, OpenCL 2.1, Vulkan 1.3 y Shader Model 6.5	DirectX 12 Ultimate, OpenGL 4.6, OpenCL 2.2, Vulkan 1.3 y Shader Model 6.8
Interfaz	PCIe 4.0 x16	PCIe 5.0 x16

Objetivos para RDNA 4

El objetivo que se marca un diseñador con cada nueva arquitectura es la de conseguir mejoras en cuanto a rendimiento y consumo, es decir, mayor eficiencia. Pasos adelante que se consiguen con el rediseño de la microarquitectura y también con mejoras en el nodo de fabricación de los nuevos chips, además de la implementación de nuevas tecnologías.

Para AMD, los objetivos para RDNA 4 estaban claros:

Profunda optimización para cargas de trabajo gaming.
Mejorar la rasterización y la eficiencia de cómputo de sus unidades de cálculo.
Dar un paso adelante en rendimiento RayTracing que los acercase a NVIDIA.
Dar soporte para ML de alto rendimiento.
Mejorar la eficiencia en cuanto al uso de ancho de banda de memoria para todo tipo de cargas.
Mejoras multimedia tanto para juegos como para creadores/diseñadores.

En el gráfico anterior podemos ver que el poder en ML (Machine Learning) de RDNA 4 se ha multiplicado, duplicando el rendimiento que se obtenía en las RDNA 3. El salto en RT ha sido inferior, significa un pasito pequeño hacia delante, algo parecido al de rasterización. Es decir, RDNA 4, donde más ha mejorado, es en ML, algo en lo que NVIDIA está sacando la mayor ventaja frente a sus competidores y donde más necesaria era la mejoría.

También te recomiendo leer nuestra guía con las mejores tarjetas gráficas

Claves de la microarquitectura RDNA 4

Los puntos clave de esta arquitectura RDNA 4 son:

Diseño monolítico optimizado. En vez de usar chiplets o MCM, AMD ha compactado todo en un chip y se ha fabricado bajo el nodo TSMC 4nm. Esto permitirña integrar más transistores por unidad de superficie en el chip, además de mejorar la frecuencia de reloj y bajar el consumo, frente al nodo de 5nm usado en RDNA 3.
Mejoras en el procesador de comandos, con nuevos aceleradores de hardware.
Se han incluido unidades de trazado de rayos de 3ª Generación, lo que permite mejorar los ratios RT, mejoras en la compresión BVH, etc.
El subsistema de memoria caché se ha optimizado y balanceado, con 64 MB de Infinity Cache de 3ª Generación, 8 MB de L2 y 2MB agregados por CU.
En cuanto a la interfaz, se ha pasado de PCIe 4.0 a PCIe 5.0, lo que mejorará la transferencia de datos.
Se ha mejorado también las interfaces de pantalla, con un nuevo Radiance Display Engine, consiguiendo mejoras en el sharpening y el escalado, así como soporte para puertos DP 2.1a y HDMI 2.1b.
La memoria VRAM sigue siendo GDDR6, pero se ha mejorado la velocidad y también la compresión.
Las unidades Matrix de aceleración llegan en su 3ª Generación, con mejoras en la densidad tensorial, capacidad para computdo con datos de 8b de coma flotante necesarios en cargas IA, soporte para Structured Sparsity, y ahora FSR estará basado en ML acelerado por hardware.
Por otro lado, también tenemos un nuevo motor multimedia, el Dual Media Engine, con actualizaciones para acelerar la codificación y decodificación de vídeo, baja latencia optimizada para streaming, y hasta un 25% de mejora en la calidad en AVC, H.264 Y h.265. Además, se ha doblado el rendiimento para el AV1.

Muchas mejoras que aún no han alcanzado su máximo por lo dicho anteriormente, se trata de una RX 9070 XT, no de la RX 9090…

Te puede interesar conocer las mejores configuraciones de PC para gaming

Análisis de la RDNA 4 a fondo

La arquitectura RDNA 4 de AMD introduce mejoras significativas en rendimiento y eficiencia en comparación con su predecesora, como he comentado antes. Pero vamos a analizar con más detalle qué trae de nuevo o qué aporta RDNA 4:

Nuevas Unidades de Cómputo y Mejoras en Shader

El motor de cómputo es el bloque fundamental de la arquitectura RDNA 4. Las nuevas Computing Units (CUs) incorporan:

Unidades vectoriales Dual SIMD32.
Operaciones matriciales mejoradas, incluyendo:
Tasas de matriz densa de 2x-16b y 4x-8b/4b.
Estructura de esparsidad 4:2, lo que duplica el rendimiento.
Nuevos tipos de datos en coma flotante de 8 bits.
Carga matricial con transposición.

Además, RDNA 4 introduce optimizaciones en shading, donde los shaders pueden asignar y liberar registros de manera dinámica, mejorando la eficiencia de memoria y reduciendo latencias. Por otro lado, las unidades escalares ahora soportan nuevas operaciones en FP32, además de mejoras en programación con barreras divididas y nombradas, operaciones de relleno y vaciado aceleradas, y prefetch de instrucciones optimizado.

Hay que decir que en este SKU, el chip Navi 48 de la Radeon RX 9070 XT cuenta con una estructura compuesta por cuatro motores de sombreado y cada uno con varias DCUs, es decir Dual Compute Units. Cada una de estas DCUs contiene:

2x unidades de cómputo, sumando un total de 64 CUs y 4096 procesadores de flujo.
2x aceleradores de rayos, alcanzando 64 RAs en total.
4x motores de aceleración matricial, sumando 128 MAs.
4x bloques RB+, un motor de rasterización y una unidad Prim.

Como complemento a lo anterior, en el mismo chip monolítico también se incluyen:

4x secciones de Infinity Cache de 3ª generación.
4x controladores de memoria de 4×16-bits.
1x unidad de caché L2 alojada en el centro.
2x procesadores de geometría.
2x unidades ACE.
1x HWS .
1x DMA.
Conectividad interna a través de Infinity Fabric.

Mejoras en Trazado de Rayos

La tercera generación de unidades de trazado de rayos introduce mejoras significativas:

Tasa de intersección de rayos duplicada.
Compresión de BVH mejorada.
Aceleración en la travesía de rayos y shading.
Incorporación de Oriented Bounding Boxes (OBB).

Cada acelerador de rayos ahora cuenta con:

Doble cantidad de unidades de intersección de cajas y triángulos.
Transformaciones de instancia por hardware.
Mejor gestión de la pila RT.
Compresión mejorada de nodos BVH8.

Gracias a estas mejoras, el consumo de memoria para estructuras BVH se reduce en un 40% respecto a RDNA 3. Además, AMD ha optimizado la forma en que se manejan las cajas en la geometría para reducir los costos de travesía, mejorando el rendimiento en un 10%. Como resultado, el trazado de rayos en RDNA 4 es el doble de rápido que en RDNA 3, con la misma frecuencia y ancho de banda.

Procesador de Comandos y Subsistema de Memoria Mejorados

El nuevo procesador de comandos introduce aceleradores de paquetes mejorados. La caché también recibe una actualización, ahora con:

Hasta 64 MB de 3ra Generación de Infinity Cache.
8 MB de caché L2.
2 MB de caché agregada para las unidades de cómputo.

En cuanto a la memoria, RDNA 4 mantiene compatibilidad con GDDR6, pero ahora con velocidades de hasta 20 Gbps y una capacidad máxima de 16 GB, junto con una interfaz de bus de 256 bits *(ojo, máximas para este SKU, lo vuelvo a repetir). También se han implementado nuevas técnicas de compresión para optimizar el uso del ancho de banda disponible.

Aceleración en IA y Aprendizaje Automático

AMD incorpora la tercera generación de su motor de aceleración matricial, con mejoras en:

Tasas tensoriales densas.
Tipos de datos en coma flotante de 8 bits.
Soporte para esparsidad estructurada.
Uso de IA para upscaling y super resolución.

Gracias a estas optimizaciones, la generación de imágenes en escenarios normalizados con FP16 es el doble de rápida en RDNA 4 en comparación con RDNA 3.

Motor de Medios y Motor de Pantalla

El motor de medios adopta un diseño de doble ancho con mejoras en codificación y decodificación:

Incremento del 25% en calidad de codificación de baja latencia en H.264.
11% de mejora en calidad de codificación HEVC.
Mejor eficiencia en AV1 con uso de B Frames.
Hasta 30% más rendimiento en codificación a 720p.
Optimizado para herramientas como FFMPEG, OBS y Handbrake.
Aumento del 50% en la eficiencia de reproducción de video de baja potencia en AV1 y VP9.

El motor de pantalla «Radiance Display Engine» ahora soporta:

DisplayPort 2.1a y HDMI 2.1b.
Optimizaciones en Radeon Image Sharpening 2.
Modos de optimización FreeSync para menor consumo en configuraciones de doble pantalla.
Hardware Flip Queue, que reduce la carga del CPU al manejar la programación de fotogramas en video.

Loading video