Tarjetas gráficasTutoriales

Guía de diagnóstico de problemas para GPUs AMD

Todas las tarjetas gráficas pueden fallar en cualquier momento, y esto puede suponer un gran desembolso de dinero en caso de que haya que sustituirla. Sin embargo, existen algunas cosas para diagnosticar y tratar de solucionar algunos problemas comunes, en este caso, será una guía especialmente centrada en las GPUs de AMD.

Conoce más sobre los elementos electrónicos

Problemas con los voltajes y señales

conector tarjeta gráfica AMD

Antes de continuar, es recomendable inspeccionar la tarjeta en busca de daños físicos, especialmente en el caso de tarjetas sin protectores. Estas pueden perder fácilmente algunos componentes en la parte posterior debido a una manipulación inadecuada, golpes, roces, fatiga, vibraciones, etc.

Una vez que hayas confirmado que no hay daños físicos en la tarjeta, puedes proceder a utilizar un multímetro para verificar las resistencias de los rieles de voltaje. Por ejemplo, puedes testar si los voltajes de los rieles o conectores de 12V a través de la ranura PCIe son correctos, y también mide los GND o tierra. Es decir, es importante comprobar antes si existen cortocircuitos o problemas en el suministro que llega a la tarjeta gráfica, antes de suponer que es un problema de la propia tarjeta gráfica.

Haz lo mismo con los rieles o vías de 3.3v, tanto en los pines de la ranura PCIe como en los conectores adicionales si tu tarjeta gráfica los tiene. Además, te aconsejaría hacer lo mismo para otros rieles o líneas de otros voltajes diferentes, comprobando los reguladores de voltaje lineal o convertidores Buck, además de comprobar el Vcore, GND, etc.

slot PCIe voltage

Suponiendo que no hay cortocircuitos, y que los voltajes son los correctos, puedes proceder a conectar la tarjeta a la placa base y comenzar a realizar pruebas. Una vez insertada la tarjeta, también podrás comprobar los distintos voltajes, para ver si viajan adecuadamente a través de la PCB de la tarjeta, como Vcore, Vmem, etc.

Si todo está en orden, pero aún no hay salida de video, algunos de estos factores pueden estar en juego, incluyendo memoria defectuosa, BIOS, PERSTB, oscilador de cristal o problemas de strap. Además, si el puerto HDMI muestra una pantalla negra, intenta conectar el monitor a uno de los puertos de visualización de la tarjeta gráfica; es posible que obtengas una imagen a través del puerto de visualización.

Por ejemplo, en caso del oscilador de cristal, el que genera la señal de frecuencia de reloj, a menudo marcados con «Y» seguido de un número, pueden fallar ocasionalmente, lo que hace que la tarjeta no arranque. Estos generadores, dependiendo del modelo, deberían generar frecuencias como 10 Mhz, 20 Mhz, etc., y luego serán multiplicados para que sean los correctos para la GPU y VRAM. En caso de que alguno de ellos no funcione, ahí estará el problema…

Consulta tu manual o datasheet de tu tarjeta para ver más señales presentes y para poder verificar si están bien. Si todo lo demás funciona como debería pero aún no hay salida de video, desafortunadamente tienes un núcleo de GPU defectuoso. En ese caso, necesitarás reemplazar el chip central, lo que requiere una estación de reballing BGA y está fuera del alcance de muchas personas.

También te puede interesar conocer cuáles son las mejores tarjetas gráficas

Problemas con el BIOS/firmware

chip BIOS GPU AMD

Si verificaste que todos los componentes de la tarjeta gráfica están en buen estado y los voltajes necesarios están presentes, pero el ordenador no la detecta, probablemente se deba a un problema con el BIOS. Si la memoria está bien o la tarjeta ni siquiera se detecta en Linux, usando framebuffer, el problema probablemente esté relacionado con el BIOS.

Como sabes, cuando se inicia el equipo, el núcleo de la GPU activa el chip BIOS mediante una señal CS. Luego se produce una lectura de la ROM de este chip, para establecer la configuración correcta y con la información para que el PC la detecte.

Los chips, al igual que las PCBs, pueden ser de muy diversos fabricantes, aunque la GPU AMD sea el mismo modelo. No obstante, el circuito suele ser similar. Y es importante comprobar las resistencias y voltajes de los pines 1, 2, 5 y 6 del chip BIOS que debes localizar.

Los síntomas de un problema con el BIOS suelen hacer que el PC no reconozca la tarjeta durante el arranque o que lance un error en el P.O.S.T., o aparece el error 43 en el administrador de dispositivos del sistema operativo. También podría ocurrir que sea reconocida y no genere dicho error, pero que el funcionamiento sea inestable (a veces funciona, pero después de un reinicio no).

Ahora bien, para solucionar este tipo de problemas:

  1. Verifica la alimentación: asegúrate de que el chip BIOS reciba energía a través del pin VDD.
  2. Analiza la comunicación: usando un osciloscopio, sonda los pines 2 y 5 durante la inicialización. Si hay silencio total, significa que el núcleo ni siquiera intenta comunicarse con la BIOS (posiblemente esté defectuoso o la tarjeta no llega al punto de inicialización).
  3. BIOS defectuosa:  podría estar dañada o se le ha flasheado una BIOS modificada/incompatible. Flashea la BIOS original (de la biblioteca TPU BIOS o del sitio web del fabricante) usando un adaptador SPI/USB.
  4. Resistencias dañadas: revisa las resistencias entre el chip BIOS y el de la GPU.

El famoso error 43 suele darse en tarjetas gráficas de segunda mano que se han comprado y han sido usadas previamente para minería de criptomonedas, con una BIOS flasheada y personalizada para mejorar la eficiencia…

Problemas con la memoria VRAM

Chips VRAM GPU AMD

Si has llegado a este punto, el culpable más probable es la memoria. Puedes confirmar esto probando la memoria en Linux.

Esto es válido para la GDDR, pero no para las tarjetas de memoria Vega o R9 Fury con HBM, ya que ésta memoria es algo más especial.

Si tu tarjeta gráfica tiene todos los voltajes correctos y el circuito BIOS funciona bien, pero aún no hay salida o presenta artefactos, bloqueos bajo carga o comportamientos anormales, es probable que tengas un chip de memoria defectuoso. Si no funciona la gráfica ni en uno ni en otro, lo más probable es que el problema no sea de la VRAM. En cambio, ver líneas verticales en pantalla es un síntoma bastante evidente de que la RAM está fallando.

Reemplazar chips de memoria es un procedimiento complejo. Si no tienes las herramientas o la experiencia, te recomendamos acudir a un profesional, al igual que ocurría si se necesitaba sustituir la GPU.

A diferencia de las tarjetas NVIDIA, los canales de memoria en AMD comienzan con el chip 0 y luego el chip 1, en vez de comenzar por el chip 1. Además, es importante saber que cada 2 chips de memoria suelen conformar un canal de memoria hacia la GPU, y estos canales se identifican con letras del alfabeto, comenzando por la A para el primer canal.

Además de hacer comprobaciones físicas, prueba en Windows y con un Live de Linux (utiliza el script dmgg.py que sirve precisamente para comprobar la memoria). Cuando lo ejecutes, te indicará dónde se encuentran los errores. Dependiendo de la versión, puede identificarlos por canal o por chip. Por ejemplo, si te muestra fallo en el A1, significa que es en el primer canal de memoria y el chip 1 donde está el fallo… Un solo fallo sea donde sea, ya implica que la VRAM está defectuosa.

python3 ./»scriptname.py» [dirección-memoria] [cantidad-memoria-hasta-255-mb]  [número-chips-vram]

Por ejemplo, desde Linux con el script descargado, y con Python también instalado, haz esto desde el mismo directorio donde tienes el script dmgg.py en el terminal:

sudo python3 ./dmgg.py c0000000 20 8

Puedes conocer detalles de tu tarjeta gráfica que necesites para las opciones de este comando con:

lspci -v

Otros errores y problemas habituales

artifacts

Si la tarjeta emite una imagen, pero no funciona correctamente, aquí hay algunos problemas comunes y sus posibles soluciones:

Artefactos (artifacts) en la Imagen

Los artefactos en la imagen suelen ser causados por problemas de memoria. Puedes verificar esto siguiendo los mismos pasos explicados en el apartado anterior para comprobar la memoria.

Crasheos bajo carga

Al igual que los artefactos, los bloqueos bajo carga suelen ser causados por problemas de memoria o del núcleo. Sin embargo, en casos raros, pueden deberse a un MOSFET o PowerStage defectuoso, o al controlador de estos componentes. En condiciones de baja carga, no todas las fases de Vcore están funcionando, solo 1 o 2 están conmutando. Tan pronto como aparece una carga más alta y la tarjeta comienza a consumir más energía, el resto de las fases comenzarán a conmutar. En este momento, podría ser que el MOSFET esté defectuoso y no conmute correctamente o que el controlador no esté proporcionando la señal de conmutación.

Para diagnosticar esto, necesitarás un osciloscopio y comprobar cada uno de los transistores MOSFET. Asegúrate de que la señal PWM en cada uno sea la correcta.

No olvides escribir tus comentarios, con lo que desees…

Isaac

Geek de los sistemas electrónicos, especialmente del hardware informático. Con alma de escritor y pasión por compartir todo el conocimiento sobre tecnología.
Los datos de carácter personal que nos facilite mediante este formulario quedarán registrados en un fichero de Miguel Ángel Navas Carrera, con la finalidad de gestionar los comentarios que realizas en este blog. La legitimación se realiza a través del consentimiento del interesado. Si no se acepta no podrás comentar en este blog. Puedes consultar Política de privacidad. Puede ejercitar los derechos de acceso, rectificación, cancelación y oposición en info@profesionalreview.com
Botón volver arriba