Ahora tenemos en el mercado una nueva tarjeta gráfica Radeon RX 7000 Series de AMD, una versión más barata de la XT, pero que ofrece un fantástico rendimiento. Me estoy refiriendo a la GRE. Así que, sería interesante hacer una comparativa entre la RX 7900 GRE vs RTX 4070 SUPER. Dos tarjetas gráficas con precios similares, y con unos rendimientos que vamos a desvelar…
Índice de contenidos
RX 7900 GRE vs RTX 4070 SUPER: especificaciones técnicas
Especificaciones |
RX 7900 GRE |
RTX 4070 SUPER |
GPU |
Navi 31 XL |
AD104 |
Núcleos de sombreado |
5120 |
7168 |
Ray Tracing |
80 |
56 |
Tensor / Aceleradores IA |
160 |
224 |
Frecuencia de reloj base/turbo |
1287/2245 MHz |
1980/2475 MHz |
VRAM y velocidad |
16 GB GDDR6 18 Gbps |
12 GB GDDR6X 21 Gbps |
Bus |
256-bit |
192-bit |
Ancho de banda |
576 GB/s |
504.2 GB/s |
Memoria caché |
L0: 32 KB por WGP L1: 128 KB por array L2: 6 MB L3: 64 MB |
L1: 128 KB por SM L2: 48 MB |
TDP |
260 W |
220 W |
Fuente sugerida |
550 W |
550W |
Puertos |
1x HDMI 2.1 3x DisplayPort 1.4 |
1x HDMI 2.1 3x DisplayPort 1.4 |
Dimensiones |
276x110x51 mm |
267x112x42 mm |
Te recomiendo leer nuestra guía sobre las mejores tarjetas gráficas del mercado
Análisis de las microarquitecturas
Vamos a adentrarnos en las microarquitecturas de GPU y explorar las del chip Navi 31 de AMD y AD102 de NVIDIA. Es decir, RDNA 3.0 vs Ada Lovelace.
AMD Navi 31: RDNA3
En el corazón de la arquitectura gráfica RDNA 3 de AMD se encuentra la Unidad de Cómputo Doble (DCU), también conocida como WGP (WorkGroups Processor). Este es el bloque de construcción más pequeño responsable de las tareas de sombreado.
La estructura general sigue siendo familiar desde RDNA 2. Dos Unidades de Cómputo comparten recursos y cada una alberga 64 SP (Streaming Processors) organizados en dos grupos de 32. El cambio clave se encuentra dentro de cada SP:
- Doble de potencia gracias al doble de ALUs. Esto se traduce en dos bancos de unidades SIMD64 por CU, cada banco equipado con puertos de datos duales para manejar varios formatos de datos como operaciones de punto flotante, enteros y matrices.
- Flexibilidad de instrucciones con estos SP mejorados, que pueden manejar una amplia gama de tipos de datos, incluidos formatos FP16, BF16, FP32, FP64 y enteros. Esto permite que las CUs aborden diversas cargas de trabajo de manera eficiente.
- Procesamiento SIMD64 y Wave. Esto permite al programador de subprocesos enviar 64 subprocesos (un frente de onda) simultáneamente. Alternativamente, puede emitir dos frentes de onda de 32 subprocesos por ciclo de reloj. AMD conserva sus reglas de instrucción existentes, dejando la gestión de estas operaciones a los controladores de la GPU.
- Otra adición interesante son los aceleradores para IA. A diferencia de las unidades dedicadas en las arquitecturas de la competencia, estas utilizan las unidades SIMD existentes para las operaciones matriciales. Los cálculos como Wave Matrix Multiply Accumulate (WMMA) aprovechan las 64 ALUs completas para un rendimiento máximo. Algo similar a los Tensor Memory Accelerator de NVIDIA.
NVIDIA AD102: Ada Lovelace
El Multiprocesador de Streaming (SM) de Nvidia, el bloque de construcción central de las GPU GeForce RTX, el equivalente al CU de AMD, no ha recibido una revisión importante desde su introducción en la arquitectura Turing en 2018. Si bien algunas unidades se han ajustado para un mejor rendimiento o características nuevas.
Estas unidades de sombreado se pueden describir atendiendo a puntos clave:
- El SM se divide en cuatro secciones, cada una equipada con su propia caché de instrucciones L0, programador de subprocesos y una sección dedicada de 64 KB del archivo de registro emparejado con un procesador SIMD32.
- Similar al RDNA 3 de AMD, el SM de NVIDIA puede procesar dos subprocesos simultáneamente dentro de cada partición. Un subproceso puede manejar instrucciones FP32, mientras que el otro aborda instrucciones FP32 o INT32.
- La última versión de los núcleos Tensor cuenta con la inclusión del motor transformador FP8. Sin embargo, las cifras de rendimiento bruto no han cambiado significativamente. El enfoque aquí parece estar en mejorar la idoneidad de la GPU para modelos de entrenamiento de IA mediante la incorporación del formato FP8 de baja precisión. Además, estos núcleos conservan algunas reminiscencias de Ampere.
- El motor de flujo óptico denominado OFA merece una mención. Este circuito juega un papel crucial de la tecnología DLSS. El OFA renovado presume del doble de rendimiento que su contraparte Ampere, lo que contribuye a las mejoras generales en DLSS 3.
También te podría interesar conocer las mejores placas base compatibles
Más detalles importantes
En cuanto a la cantidad de operaciones matemáticas que pueden realizar por cada ciclo de reloj, nos encontramos lo siguiente:
Tipo de operaciones | Ada Lovelace | RDNA 3 |
FP32 | 128 | 256 |
FP16 | 128 | 512 |
FP64 | 2 | 16 |
INT32 | 64 | 128 |
FP16 matricial | 512 | 256 |
INT8 matricial | 1024 | 256 |
INT4 matricial | 2048 | 1024 |
Además de las mejoras en el cálculo, también se ha potenciado el Ray Tracing en ambas arquitecturas. Por ejemplo, en el caso de AMD ha cambiado a unos aceleradores de hardware más grandes, mejorando también el BVH, pudiendo detectar colisiones entre rayos y superficies de forma más rápida. En el caso de NVIDIA, sus resultados ya eran muy buenos, y lo que han hecho es seguir optimizando este aspecto con un nuevo motor de microplanos de opacidad, mejorando la eficiencia entre los rayos y superficies transparentes.
En cuanto a la memoria, no hay cambios significativos, ni entre la generación anterior ni entre esta nueva versión SUPER y GRE de la RTX 4070 y RX 7900 GRE. Además, recordemos que tanto una versión como otra se basan en los mismos chips base. La memoria caché sí que ha crecido en cuanto a complejidad en el caso de AMD y se ha hecho más grande en el caso de NVIDIA, pero esto no es algo particular de la SUPER y GRE…
Pruebas de rendimiento: RX 7900 GRE vs RTX 4070 SUPER
En cuanto a las pruebas de rendimiento, que es lo que más estáis esperando, hay que decir que los resultados han sido los siguientes:
Benchmarks
En los bancos de prueba elegidos, los resultados en puntos han sido los siguientes para esta batalla RX 7900 GRE vs RTX 4070 SUPER (más es mejor):
Resultados en renderizado
En las pruebas realizadas de renderizado en Blender 2.9 + proyecto The Junk Shop, los resultados en segundos son los siguientes (menos es mejor):
Rendimiento con juegos
En cuanto al rendimiento en el mundo real, con los videojuegos, he tomado como referencia configuraciones gráficas altas y resoluciones también elevadas, donde más destaca la GPU y donde menos influye la CPU empleada. Es decir, en los juegos elegidos, se utilizará 1440p y 4K, midiendo los FPS (Frames Per Second), por lo que una puntuación mayor será mejor:
Temperatura y consumo
Para finalizar, la temperatura y consumo que alcanzan en esta comparativa RX 7900 GRE vs RTX 4070 SUPER, son las siguientes:
- Temperatura en ºC (menos es mejor):
- Consumo en vatios (menos es mejor):
Conclusión
Dependiendo de la placa que se compre con estas GPUs, la RX 7900 GRE y la RTX 4070 SUPER pueden tener precios similares. Puede variar un poco arriba o abajo dependiendo de la marca, pero están bastante parejas. Y por eso esta comparativa es aún más interesante, ya que puedes conseguir una tarjeta gráfica con un rendimiento igual o superior por menos…
Las diferencias no son demasiadas, como se puede apreciar, ambas están bastante parejas en rendimiento en general, así que la elección es complicada. En principio, la NVIDIA GeForce RTX 4070 SUPER estaría un poco por delante, y además cuenta con soporte para CUDA, y va por delante en IA, si vas a usar la tarjeta también para desarrollo…
No olvides dejar tus comentarios…