Chips diminutos, problemas gigantescos

Imagina por un momento que los millones de chips de computadora dentro de los servidores que impulsan el funcionamiento de los centros de datos más grandes del mundo tuvieran fallas infrecuentes y casi imperceptibles. Y que la única manera de encontrar esas fallas fuera usar esos chips para resolver problemas gigantescos de computación que habrían sido impensables hace apenas una década.

A medida que los interruptores minúsculos en los chips de computadora se han reducido al tamaño de unos cuantos átomos, la fiabilidad de estos componentes se ha convertido en otra preocupación para los operadores de las redes más grandes del mundo. Empresas como Amazon, Facebook, Twitter y muchos otros sitios han experimentado cortes eléctricos sorprendentes a lo largo del año pasado.

Los apagones han tenido varias causas, como errores de programación y la aglomeración en las redes. Pero cada vez hay más inquietudes de que, aunque las redes de computación en la nube se vuelvan más grandes y complejas, siguen dependiendo, en el nivel más básico, de los chips de computadora que ahora son menos confiables y, en algunos casos, menos predecibles.

En el último año, investigadores de Facebook y Google han publicado estudios que describen fallas de equipos informáticos cuyas causas no han sido fáciles de identificar. El problema, según arguyen, no estaba en el software, sino en alguna parte del hardware informático fabricado por distintas compañías. Google se rehusó a realizar comentarios sobre su estudio, mientras que Facebook no respondió a las solicitudes de ofrecer comentarios sobre el suyo.

“Están viendo estos errores silenciosos que provienen, en esencia, del equipo subyacente”, afirmó Subhasish Mitra, ingeniero eléctrico de la Universidad de Stanford, especializado en pruebas de equipos informáticos. Mitra precisó que la gente está cada vez más convencida de que los defectos de fabricación están vinculados a estos llamados errores silenciosos que no se pueden detectar con facilidad.

A los investigadores les preocupa hallar fallas infrecuentes debido a sus intentos de resolver problemas informáticos cada vez más grandes, lo cual satura sus sistemas de maneras inesperadas.

Cada vez hay más evidencia de que el problema está empeorando con cada nueva generación de chips. Un informe publicado en 2020 por el fabricante de chips Advanced Micro Devices reveló que la mayoría de los chips de memoria, más avanzados en aquel entonces, eran aproximadamente 5,5 veces menos confiables que los de la generación previa. AMD no respondió a las solicitudes de comentarios sobre el informe.

Hasta ahora, los diseñadores de computadoras han tratado de manejar las fallas de hardware integrando circuitos especiales en chips que corrigen errores. Los circuitos detectan y corrigen los datos erróneos de manera automática. Este se consideraba un problema demasiado infrecuente. Pero hace varios años, los equipos de producción de Google empezaron a reportar errores que eran sumamente difíciles de diagnosticar. Los errores de cálculo ocurrían de manera intermitente y era complicado recrearlos, según su informe.

Un equipo de investigadores intentó rastrear el origen del problema, y el año pasado publicó sus hallazgos. Concluyeron que los enormes centros de datos de la empresa, compuestos por sistemas informáticos basados en millones de “núcleos” de procesadores, estaban experimentando errores nuevos que quizá se debían a la combinación de un par de factores: los transistores más pequeños que estaban llegando a su límite físico y un mecanismo inadecuado de pruebas.

En su informe titulado “Cores That Don’t Count” (‘Núcleos que no calculan’), los investigadores de Google señalaron que el problema era tan desafiante que ya habían dedicado el equivalente a varias décadas de trabajo de ingeniería a resolverlo.

Los chips de procesador modernos constan de decenas de núcleos de procesador lo que los convierte en motores de cálculo que permiten dividir tareas y resolverlas en paralelo. Los investigadores se dieron cuenta de que un subconjunto diminuto de núcleos producía resultados incorrectos con poca frecuencia y solo en ciertas condiciones. Describieron este comportamiento como esporádico. En algunos casos, los núcleos producían errores solo cuando la velocidad de procesamiento o la temperatura se alteraban.

La complejidad creciente del diseño de procesadores fue una causa importante de las fallas, según Google. Pero los ingenieros afirmaron que los transistores más pequeños, los chips tridimensionales y los nuevos diseños que solo crean errores en ciertos casos también contribuyeron al problema.

En un informe similar publicado el año pasado, un grupo de investigadores de Facebook indicó que algunos procesadores pasaban las pruebas de los fabricantes, pero luego, cuando ya estaban en el campo, empezaban a presentar fallas.

Los ejecutivos de Intel comentaron que estaban al tanto de los informes de investigación de Google y Facebook y que estaban trabajando con ambas empresas para desarrollar nuevos métodos de detección y corrección de errores de hardware.

Bryan Jorgensen, vicepresidente del grupo de plataformas de datos de Intel, dijo que las afirmaciones que hicieron los investigadores eran correctas y que “el desafío que plantean para la industria es el camino indicado”.

Jorgensen detalló que, hace poco, Intel emprendió un proyecto para ayudar a crear un software estándar de código abierto para los operadores de centros de datos. El software les facilitaría identificar y corregir los errores de equipo que los circuitos integrados a los chips no estaban detectando.

Los ingenieros en computación no se ponen de acuerdo sobre cómo responder a este desafío. Una respuesta generalizada es la demanda de nuevos tipos de software que hallen de manera proactiva los errores de hardware y les permitan a los operadores retirar los equipos cuando comiencen a deteriorarse. Eso ha creado una oportunidad para las empresas emergentes que ofrecen software que monitorea la salud de los chips subyacentes en los centros de datos.

Entre ellas está TidalScale, una empresa con sede en Los Gatos, California, que desarrolla software especializado para compañías que buscan minimizar los apagones de equipos. Su director ejecutivo, Gary Smerdon, sugirió que TidalScale y otras empresas afines estaban frente a un reto impresionante.

“Será un poco como cambiar el motor de un avión mientras sigue en el aire”, explicó.

Deja una respuesta Cancelar la respuesta