Tarjetas gráficasTutoriales

Diagnóstico de problemas para GPUs NVIDIA

Las tarjetas gráficas no son invulnerables a posibles averías o fallos. Sin embargo, son un elemento caro como para tirarla sin más. Por eso, aquí te mostramos algunas cosas que puedes hacer para diagnosticar e intentar corregir el problema en el caso de GPUs de la marca NVIDIA. Así que, vamos a ver cómo hacerlo.

Conoce más sobre los elementos electrónicos

Problemas con los voltajes

NVIDIA GPU conector alimentación

Antes de culpar a la tarjeta gráfica, es fundamental descartar problemas externos. Comienza inspeccionando visualmente la tarjeta: busca daños físicos, como componentes sueltos o doblados, especialmente en tarjetas sin placa trasera. Estos daños pueden ser causados por golpes, flexiones o una manipulación inadecuada.

Una vez descartados los daños físicos, utiliza un multímetro para verificar los voltajes:

  • Rieles de 12V y 3.3V: Mide la tensión en los pines de la ranura PCIe y en los conectores adicionales. Asegúrate de que los valores estén dentro de los rangos especificados y que no haya cortocircuitos a tierra (GND).
  • Otros rieles: Comprueba los voltajes de otros rieles, como Vcore, Vmem, etc. Utiliza el diagrama esquemático de tu tarjeta para identificar los puntos de medición correctos.
    Reguladores de voltaje: Inspecciona los reguladores de voltaje lineal y convertidores buck para verificar que estén funcionando correctamente.

Si los voltajes son correctos, conecta la tarjeta a la placa base y verifica nuevamente los voltajes en la PCB de la tarjeta. Si aún no tienes señal de video, considera los siguientes factores, como pueden ser las señales de reloj generadas por el oscilador de cristal. Este componente genera la señal de reloj de la GPU y la VRAM. Un oscilador defectuoso puede impedir el funcionamiento de la tarjeta.

Las straps son pequeños componentes que configuran ciertos ajustes de la tarjeta gráfica, como el tipo de memoria, la capacidad de memoria y la habilitación o deshabilitación de algunas funciones. Ocasionalmente, estos straps pueden fallar, cambiando su valor o simplemente abriéndose, lo que impide que la tarjeta funcione correctamente. Para verificar su estado, puedes medir su resistencia fuera del circuito.

Otro problema común, especialmente en tarjetas usadas para minería, es el daño a las pistas PCIe. Conectar un riser de manera incorrecta puede dañar la primera pista de datos PCIe dentro del núcleo. Esto puede provocar diversos problemas, incluyendo la falta de señal de video.

Finalmente, si todos los componentes anteriores funcionan correctamente y aún no hay salida de video, es probable que el problema esté en el núcleo de la GPU. Un núcleo defectuoso es un problema serio y, en la mayoría de los casos, requiere un reemplazo, lo que necesita de equipos específicos y es mejor dejarlo en manos de profesionales…

También te puede interesar conocer cuáles son las mejores tarjetas gráficas

Problemas con el BIOS/firmware

BIOS VGA NVIDIA

Si los voltajes y señales están correctas, otra de las cosas que pueden fallar en tu tarjeta gráfica NVIDIA es el BIOS, es decr, el chip con el firmware. Lo más común suele ser:

  • Daños físicos: el chip BIOS puede dañarse debido a golpes, descargas eléctricas o simplemente por el desgaste natural.
  • BIOS corrupto: un BIOS modificado o corrupto puede impedir que la tarjeta funcione correctamente.
  • Problemas de comunicación: las conexiones entre el núcleo de la GPU y el chip BIOS pueden verse afectadas por soldaduras defectuosas o componentes dañados.

Los síntomas de un problema en el BIOS de tu tarjeta gráfica son:

  • La tarjeta no se reconoce: el ordenador no detecta la tarjeta gráfica durante el arranque.
  • Errores en el sistema operativo: Aparecen mensajes de error como el famoso «error 43» en el Administrador de dispositivos de Windows.
  • Funcionamiento inestable: la tarjeta puede funcionar correctamente durante un tiempo, pero luego dejar de funcionar o mostrar artefactos en pantalla.

Si no tiene soldaduras o contactos dañados de la alimentación, o daños físicos en el propio chip, puedes intentar a flashearlo con la versión original, si se trata de una tarjeta gráfica de segunda mano y que ha sido usada para minería de criptodivisas. En cualquier otro caso, necesitaría un reemplazo del chip, lo cual es delicado…

Problemas con la memoria VRAM

VRAM chips NVIDIA

Si tu tarjeta gráfica tiene voltajes correctos, el circuito BIOS funciona bien pero no hay salida de video, o presentas problemas como artefactos visuales, pantalla negra con retroiluminación, bloqueos bajo carga o comportamientos anormales, entonces es probable que tengas un chip de memoria defectuoso. Nuevamente, reemplazar estos chips BGA suele necesitar de herramientas profesionales y es complejo si no se quiere dañar la tarjeta. Por ello, no te recomendamos intentarlo.

Mientras en el caso de las tarjetas gráficas de AMD se usaba el script dmgg.py para verificar la VRAM, en el caso de las tarjetas NVIDIA tenemos la herramienta de diagnóstico: MODS/MATS.

Si tienes acceso a la herramienta de diagnóstico MODS (Memory Overclocking System Tool), en ella se incluye también MATS, para identificar chips de memoria defectuosos en tarjetas gráficas NVIDIA. En este caso, los canales de memoria compartidos por cada dos chips de memoria se enumeran números, pero en este caso los módulos de memoria se cuentan en sentido contrario a las agujas del reloj, empezando en la esquina opuesta a la flecha dorada del chip de la GPU. El conteo inicia en A1, A0, B1, B0… hasta X1, X0 (siendo X el último canal).

Para la comprobación es necesario tener una CPU Intel con iGPU o una APU AMD para conseguir una salida de vídeo.

El procedimiento de prueba es sencillo, solo tienes que lanzar MODS con los comandos:

./mods gputest.js -skip_rm_state_init -mfg nvidia
./mats -n [ID-gpu] -e [MB]

Reemplaza [ID-gpu] con un 1 si usas una GPU dedicada sin iGPU, u otro número si usas iGPU, como es este caso. Luego, [MB] sustituye por la cantidad de memoria VRAM que tenga tu tarjeta gráfica, como puede ser 4000 para 4GB.

Una vez finalizada la prueba, se generará un archivo report.txt que contiene los resultados. En él encontrarás si existen errores o fallos de la memoria, si si el problema está con el IMC o el controlador de memoria integrado.

Un solo chip defectuoso puede causar problemas de video. En este caso, dos chips dañados podrían indicar un fallo en el controlador de memoria integrado (IMC) dentro del núcleo de la GPU. No es necesario que todos fallen…

Otros errores y problemas habituales

artefactos

Por último, cuando la tarjeta parece que está bien pero la imagen que aparece tiene defectos, los problemas podrían ser:

Artefactos visuales

Los artifacts en la pantalla suelen ser un síntoma de problemas en la memoria de la tarjeta gráfica.
Para verificar esto, puedes realizar las mismas pruebas de memoria que se describieron anteriormente.

Crasheos bajo carga

Al igual que los artefactos, los bloqueos bajo carga también pueden indicar problemas de memoria o del núcleo de la GPU. Sin embargo, en algunos casos, la causa puede ser un componente de alimentación defectuoso, como un MOSFET o un controlador de potencia. Estos componentes son responsables de suministrar la energía necesaria a la GPU. Cuando la carga de trabajo aumenta, estos componentes deben trabajar más intensamente. Si alguno de ellos está dañado, puede provocar inestabilidad y bloqueos.

Para diagnosticar este problema, necesitarás un osciloscopio. Este instrumento te permitirá medir las señales eléctricas en los MOSFET y verificar si están funcionando correctamente. Si las señales PWM no son las correctas, es probable que el MOSFET o el controlador estén defectuosos.

Comenta con cualquier pregunta o sugerencia…

Isaac

Geek de los sistemas electrónicos, especialmente del hardware informático. Con alma de escritor y pasión por compartir todo el conocimiento sobre tecnología.
Los datos de carácter personal que nos facilite mediante este formulario quedarán registrados en un fichero de Miguel Ángel Navas Carrera, con la finalidad de gestionar los comentarios que realizas en este blog. La legitimación se realiza a través del consentimiento del interesado. Si no se acepta no podrás comentar en este blog. Puedes consultar Política de privacidad. Puede ejercitar los derechos de acceso, rectificación, cancelación y oposición en info@profesionalreview.com
Botón volver arriba