El episodio subraya cuán dependientes se han vuelto las empresas de los gigantes tecnológicos que brindan servicios de computación en la nube, y cuán dependientes se han vuelto esas empresas de su propia tecnología.

Una interrupción prolongada en Amazon Web Services (AWS), el brazo de computación en la nube de Amazon, causó el caos el martes para millones de usuarios y empresas a lo largo del continente americano. La mega falla afectó el acceso a una amplia gama de servicios, incluidos programas en Netflix y Disney +, servicios web de aerolíneas como Delta y Southwest, y negocios de pagos como Venmo y Nequi.

Muchas de las ofertas propias de Amazon, incluido el servicio de timbre inteligente Ring, su asistente virtual Alexa y su Amazon Music Service, también se vieron afectadas por la interrupción. También interrumpió las operaciones de entrega de Amazon, y los conductores supuestamente no pudieron acceder a la información a través de aplicaciones.

La interrupción comenzó la mañana del marts alrededor de las 10.45 am (hora del Este de los Estados Unidos) y se prolongó hasta la tarde, según Downdetector, que rastrea las interrupciones del sitio web. En un comunicado publicado alrededor de las 12.30 p.m., AWS dijo que estaba viendo múltiples problemas en los centros de datos en su región U.S.-East-1 con sede en Virginia.

La empresa culpó de los problemas al “deterioro de varios dispositivos de red”. Si bien AWS dijo que había “ejecutado una mitigación” que estaba produciendo “una recuperación significativa en la región”, poco después de las 5 de la tarde, Downdetector todavía mostraba muchos informes de problemas. En una declaración enviada por correo electrónico, Richard Rocha, un portavoz de Amazon, dijo que AWS está “trabajando para resolver los problemas lo más rápido posible”. A las 7.35 pm, la compañía dijo que había resuelto el problema con sus dispositivos de red y que los ingenieros estaban “trabajando para recuperar los servicios dañados”.

Concentración de nubes

El episodio subraya cuán dependientes se han vuelto las empresas de los gigantes tecnológicos que brindan servicios de computación en la nube de terceros. La pandemia ha acelerado el paso a la nube pública a medida que las empresas buscaban digitalizar las operaciones de manera rápida y eficiente y aprovechar una amplia gama de servicios, desde algoritmos de inteligencia artificial hasta computadoras cuánticas. A principios de este año, Gartner pronosticó un aumento del 21% en el gasto mundial del usuario final en servicios de nube pública a más de US$330.000 millones. Eso ha generado ingresos para marcas como AWS, Azure de Microsoft y Google Cloud que ya dominan en los Estados Unidos y muchos otros mercados en todo el mundo.

La pregunta es si pueden mantener la calidad mientras aumentan para satisfacer la demanda. En un intento por ganar más negocios, AWS y sus rivales compiten entre sí para crear más ofertas, lo que a su vez hace que la administración de la infraestructura para respaldarlos sea más compleja.

“A medida que explota la funcionalidad de las funciones, ellos tienen que administrarlo todo y es algo que tienes que hacerlo manualmente”, dice Doug Madory de Kentik, una empresa que proporciona datos y análisis en redes de TI a empresas. “Hay que automatizarlo y es muy difícil anticipar todos los posibles fallos”.

Un desafío al que se enfrentan los gigantes de la nube es mantenerse al tanto de las interdependencias que podrían provocar que los sistemas fallen simultáneamente. En octubre, Facebook y sus otros servicios importantes, incluidos Messenger y WhatsApp, dejaron de funcionar durante más de seis horas después de que los ingenieros que trabajaban en su red troncal global, que involucra miles de enrutadores y decenas de miles de millas de cables de fibra óptica, desencadenaran accidentalmente una interrupción en sus centros de datos.

En ese momento, Facebook señaló que parte de la razón por la que abordar la interrupción tomó tanto tiempo fue que algunas de las herramientas de software que necesitaba para tratar el problema no estaban disponibles debido a la interrupción, lo que también cerró el acceso automatizado a algunos de sus centros de datos. Los ingenieros se vieron obligados a conducir hasta algunos lugares para que volvieran a estar en línea.

Reconociendo las regiones

En su declaración del martes, AWS señaló que el incidente había afectado algunas de sus “herramientas de monitoreo e incidentes”, lo que, según dijo, había afectado su capacidad para proporcionar actualizaciones. Los expertos en la nube dicen que las empresas de la nube se enfrentan a un enigma aquí. La ejecución de tales herramientas en redes separadas administradas por otras empresas podría evitar este dolor de cabeza, pero esto también aumentaría el riesgo de que los piratas informáticos pudieran penetrar esas redes y usar las herramientas para comprometer las operaciones centrales de la nube.

La interrupción de Amazon también plantea otro problema. Los proveedores de la nube gestionan centros de datos en varias regiones del mundo. Las empresas pueden pagar para ejecutar cargas de trabajo en diferentes regiones, por lo que si una falla, otra puede actuar como respaldo. Pero la región U.S.-East-1 de AWS es especialmente popular dada la concentración de negocios en la costa este de Estados Unidos, por lo que cualquier falla que la afecte tiene un impacto sustancial.

Es posible que los CIO deban pensar en pagar los planes de transferencia, si aún no lo están haciendo. También pueden querer distribuir el riesgo entre múltiples nubes y considerar otros planes de contingencia. “Los equipos de TI y aplicaciones tienen múltiples herramientas a su disposición”, dijo Kris Beevers, director ejecutivo de NS1, que ayuda a las empresas a administrar y entregar aplicaciones de software. “Es fundamental para ellos hacer el trabajo por adelantado para preparar guías y palancas para manejar este tipo de eventos”.