Facebook dice que interrupción de servicio fue culpa de error durante mantenimiento rutinario

Tampa Hoy

(AP Photo/Patrick Sison, File)

LONDRES (AP) – La interrupción global que dejó a Facebook y sus otras plataformas fuera de línea durante horas fue causada por un error durante el mantenimiento de rutina, dijo la compañía.

Santosh Janardhan, vicepresidente de infraestructura de Facebook, dijo en un blog que el apagón de Facebook, Instagram y WhatsApp fue “causado no por una actividad maliciosa, sino por un error de nuestra propia creación”.

El problema se produjo cuando los ingenieros realizaban trabajo diario en la red troncal global de Facebook; las computadoras, los enrutadores y el software en sus centros de datos en todo el mundo junto con los cables de fibra óptica que los conectan.

“Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red troncal global, que accidentalmente cortó todas las conexiones en nuestra red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial”, dijo Janardhan el martes.

Los sistemas de Facebook están diseñados para detectar tales errores, pero en este caso, un error en la herramienta de auditoría le impidió detener correctamente el comando, dijo Janardhan.

Ese cambio también desencadenó un segundo problema que empeoró las cosas al hacer imposible llegar a los servidores de Facebook a pesar de que estaban operativos.

Los ingenieros se apresuraron a solucionar el problema en el sitio, pero esto llevó tiempo debido a las capas adicionales de seguridad, dijo Janardhan. Los centros de datos son “difíciles de acceder y, una vez dentro, el hardware y los enrutadores están diseñados para ser difíciles de modificar incluso cuando se tiene acceso físico a ellos”.

Una vez que se restableció la conectividad, los servicios se restablecieron gradualmente para evitar aumentos repentinos de tráfico que podrían causar más accidentes.

Fue una “anomalía imprevista” que una actualización de mantenimiento defectuosa derribara la red troncal de Facebook, pero la compañía probablemente podría haber evitado un escenario en el que sus servidores se desconectaron por completo, lo que imposibilitó el acceso a las herramientas necesarias para solucionarlo, dijo. Angelique Medina, de ThousandEyes de Cisco Systems, una firma que monitorea cortes de Internet.

“La gran pregunta es por qué tantas herramientas y sistemas internos podrían tener una sola fuente de falla”, dijo Medina. “Facebook aún habría estado inactivo debido a la interrupción de la red, pero podrían haber resuelto la interrupción antes si tuvieran acceso interno . “

Copyright 2021 Nexstar Media Inc. All rights reserved. This material may not be published, broadcast, rewritten, or redistributed.