¿Y cuando se cae un servidor?

El pasado domingo uno de los servidores de Dieyes donde alojamos sitios Web dejó de funcionar. La primera vez que presencias algo así le echas la culpa al navegador, y tras reintentarlo de nuevo, a tu conexión de Internet, que rápidamente descartas cuando ves que otros sitios Web (google.es) sí responden, momento en el que uno ya empieza a mirarse el ombligo y a pensar en lo peor. Empiezas a probar todos y cada uno de los dominios que recuerdas cuelgan del mismo servidor, y uno a uno vas comprobando cómo no responden. Mientras tanto las neuronas empiezan a especular, a buscar responsables, culpables. A los pocos minutos recapacitas, -Un momento, soy yo el responsable –¡!

Entonces te incorporas en la silla y te llevas las manos a la cabeza –¡Es domingo!-. Las voces de los clientes quejándose dentro de tu cabeza no te dejan pensar, y tratas de ver la situación en perspectiva, -Tengo un día como máximo para solucionarlo todo-.

Vale, ya hemos establecido un periodo de actuación, un intervalo de tiempo que psicologicamente te ayuda aislarte de las consecuencias y te permite concentrarte exclusivamente en el problema en cuestión.

La primera pregunta que te viene a la cabeza: -¿se habrá perdido información?-. Una simple conexión mediante consola al servidor puede ayudar a saberlo, pero los sudores empiezan a hacer presencia cuando te das cuenta que ni así responde. Ya poco puede hacerse, tan solo usar el comodín de la llamada: el departamento de soporte técnico responde diciendo que la configuración RAID está dañada y que es irreparable, pero que la partición de datos sigue intacta.

Una vez levantado el servidor en recovery puedes acceder por SSH y efectivamente, comprobar que todos los datos siguen ahí. Configuras un nuevo servidor, instalas el SO y empiezas la migración.

Plesk no responde, por lo que una migración con el Migration Manager es imposible realizarla, así que hay que tirar de RSYNC entre ambos servidores. En unos minutos toda la información empieza a transferirse al nuevo servidor.

Mientras tanto vas configurando ya los clientes, dominios, alias y sus bases de datos desde Plesk en el nuevo servidor. La idea es tan solo crear la estructura, pues los datos van a llegar de un momento a otro.

Finalizada la estructura y enviados todos los datos ya dispones de un servidor funcionando, pero no está operativo. Redirigir todos los dominios a la IP del nuevo servidor sería una tarea manual que junto con la correspondiente propagación te llevaría mucho tiempo, así que hay que olvidarlo.

Instalas de nuevo el SO en el servidor dañado, ahora ya con el RAID operativo. Una vez este ya está listo y tiene a Plesk funcionando puedes iniciar una migración con PMM. La espera es larga y no puedes hacer mucho mientras tanto, así que es un buen momento para ir recapitulando y analizando. ¿Qué o quién ha causado todo? ¿qué medida debes tomar para evitar una segunda vez?. La primera pregunta la buscarás en su momento pero ahora lo más importante es, creo, atacar la segunda.

Eliminar las averías de nuestras vidas es algo imposible y hay que saber convivir con ellas, y la mala suerte puede tocarnos a todos con mayor o menor probabilidad, así que la cuestión sería ¿cúanto tiempo necesitas para reponerte de una caida?. Como bien dicen en Rocky no es más fuerte quien menos veces cae, sino quien antes se levanta. Una caida no pone en compromiso un servicio tanto como el tiempo que se necesita en reestablecer este, así que ahí es dondo hay que ir a buscar una solución, que bien puede ser una réplica del servidor por medio de RSYNC o similar. Es decir, contratar nuevo hardware y configurar el sistema en sincronización con el servidor principal, de forma que dispongas en todo momento de un equipo 100% actualizado y listo para entrar en acción en el momento en que se le necesite.

Pare reducir aun más la probabilidad de averías en el servicio la réplica del servidor deberá estar en una ubicación distinta del actual, de forma que no se vean ambos afectados por encontrarse en una misma red, entorno o bajo un mismo nodo. Así, difícilmente se producirá un caso en que se sen dos averías en ubicaciones distintas y al mismo tiempo. Ante un nuevo posible caso como el sucedido hoy se podría reestablecer el servicio en el tiempo que tardan las DNS de los distintos dominios en propagarse, lo cual da espacio de sobra para trabajar en la reparación de la avería mientras los clientes siguen disfrutando del servicio. Indirectamente todos salimos beneficiados, pues a partir de ahora las copias de seguridad se realizarán desde la réplica, lo que no pondrá en compromiso el rendimiento del servidor principal.

Ya sabes, si estás en una situación similar esta es la medida que vamos a tomar, y espero pueda serte de ayuda. Y si eres de los que aun piensan que hoy en día con hacer copias de seguridad diarias y alojar tus servidores en datacenters vas sobrado, pues ten cuidado, el dia menos pensado un ataque, un fallo en las instalaciones o un problema de hardware por insignificante y poco probable que pueda parecer, pondrá en comprosimo tus Webs.

04-12-2007


Comentarios:

Pues yo pienso que:


Suscribirse